Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
site:enseignement:master:bdle:tmes:dataset [13/10/2017 11:50] hubert [DBPedia] |
site:enseignement:master:bdle:tmes:dataset [21/09/2018 15:24] hubert [YAGO] |
||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | {{indexmenu_n>6}} | + | {{indexmenu_n>2}} |
Ligne 42: | Ligne 42: | ||
Pour lister le nom des 50 propriétés les plus fréquentes : | Pour lister le nom des 50 propriétés les plus fréquentes : | ||
<code bash> | <code bash> | ||
- | cp /Infos/bd/spark/dataset/dbpedia/dbpediaPath50.txt /tmp/BDLE/dataset | + | cp /Infos/bd/spark/dataset/dbpedia/dbpediaShortName8MProperties.txt /tmp/BDLE/dataset |
- | more /tmp/BDLE/dataset/dbpediaPath50.txt | + | more /tmp/BDLE/dataset/dbpediaShortName8MProperties.txt |
</code> | </code> | ||
Ligne 49: | Ligne 49: | ||
<code bash> | <code bash> | ||
cd /tmp/BDLE/dataset | cd /tmp/BDLE/dataset | ||
- | tar zxvf /Infos/bd/spark/dataset/dbpedia/dbpedia8M.tgz | + | tar zxvf /Infos/bd/spark/dataset/dbpedia/dbpediaShortName8M.tgz |
- | more dbpedia8M.txt | + | more dbpediaShortName8M.txt |
</code> | </code> | ||
- | Le séparateur de champ est le caractère tabulation "\t" | + | Le séparateur de champ est le caractère tabulation "\t" (écrire split("\\t") en scala) |
- | On donne aussi les triplets décrivant le **type** des ressources (sujet ou objet) du dataset. Ce sont des triplets dont le predicat est ''<http://dbpedia.org/property/type>'' et dont le sujet correspond à une resource existant dans le dataset que vous avez décompressé dbpedia8M. | + | On donne aussi les triplets décrivant le **type** des ressources (sujet ou objet) du dataset. Ce sont des triplets dont le predicat est ''<type>'' (correspond à l'URI <http://dbpedia.org/property/type>) et dont le sujet est une resource existant dans le dataset que vous avez décompressé: dbpediaShortName8M.txt. |
Pour récupérer les types : | Pour récupérer les types : | ||
+ | <code bash> | ||
+ | cp /Infos/bd/spark/dataset/dbpedia/dbpediaShortNameTypeFor8M.txt /tmp/BDLE/dataset | ||
+ | </code> | ||
+ | |||
+ | ==== YAGO ==== | ||
+ | |||
+ | Des données issues de YAGO. Ce sont des triplets RDF. | ||
+ | |||
+ | Le jeux de données complet contient plus de 100 millions de triplets. Pour faciliter les TME, on manipule un extrait contenant 5 millions de triplets : | ||
+ | * on considère seulement les faits : ce sont les triplets reliant deux ressources (aucun littéral). | ||
+ | |||
+ | Pour récupérer les triplets : | ||
<code bash> | <code bash> | ||
cd /tmp/BDLE/dataset | cd /tmp/BDLE/dataset | ||
- | cp /Infos/bd/spark/dataset/dbpedia/dbpediaTypeFor8M.txt . | + | tar zxvf /Infos/bd/spark/dataset/yago/yagoFacts5M.tgz |
+ | more yagoFacts5M.txt | ||
</code> | </code> | ||
+ | Le séparateur de champ est le caractère tabulation "\t" (écrire split("\\t") en scala) | ||
+ | |||
+ | Les propriétés existant dans le dataset sont les suivantes (on donne leur nom et leur frequence) | ||
+ | <code bash> | ||
+ | more /Infos/bd/spark/dataset/yago/yagoFacts5M_properties.txt | ||
+ | </code> | ||
+ | |||
+ | === YAGO2 === | ||
+ | La dataset YAGO2 créé en 2012 contient 4 millions de faits et les **types** des individus | ||
+ | <code bash> | ||
+ | tar zxvf /Infos/bd/spark/dataset/yago/YAGO2_2012_facts_schema_simpletypes.tgz | ||
+ | </code> | ||
+ | |||
+ | |||
+ | Pour aller plus loin, vous avez la possibilité de télécharger les [[https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/|fichiers de YAGO]], en particulier le fichier | ||
+ | [[http://resources.mpi-inf.mpg.de/yago-naga/yago3.1/yagoFacts.tsv.7z|yagofacts]] contenant tous les faits. | ||