Différences

Ci-dessous, les différences entre deux révisions de la page.

--- site:enseignement:master:bdle:tmes:dataset [19/10/2017 10:25]
hubert [YAGO]
+++ site:enseignement:master:bdle:tmes:dataset [24/09/2018 12:31]
hubert [YAGO]
@@ Ligne 1: / Ligne 1: @@
-{{indexmenu_n>6}}
+{{indexmenu_n>2}}
@@ Ligne 52: / Ligne 52: @@
 more dbpediaShortName8M.txt
 </code>
-Le séparateur de champ est le caractère tabulation "\t" (s'écrit "\\t" en scala)
+Le séparateur de champ est le caractère tabulation "\t" (écrire split("\\t") en scala)
@@ Ligne 61: / Ligne 61: @@
 </code>
+==== YAGO ====
+Des données issues de YAGO. Ce sont des triplets RDF (sujet, propriété, objet)
+Le jeux de données Yago3 complet contient plus de 100 millions de triplets. Pour faciliter les TME, on manipule un extrait contenant 5 millions de triplets :
+  * on considère seulement les faits : ce sont les triplets reliant deux ressources  (aucun littéral).
+  * on ne garde que les faits concernant un sujet relié à au moins 5 objets (ie. il y a au moins 5 faits dans Yago3 pour ce sujet), et un objet relié à au moins 5 sujets.
+Pour récupérer les triplets :
+<code bash>
+cd /tmp/BDLE/dataset
+tar zxvf /Infos/bd/spark/dataset/yago/yagoFacts5M.tgz
+more yagoFacts5M.txt
+</code>
+Le séparateur de champ est le caractère tabulation "\t" (écrire split("\\t") en scala)
+Les propriétés existant dans le dataset sont les suivantes (on donne leur nom et leur frequence)
+<code bash>
+more /Infos/bd/spark/dataset/yago/yagoFacts5M_properties.txt
+</code>
+=== YAGO2 ===
+La dataset YAGO2 créé en 2012 contient 4 millions de faits et les **types** des individus
+<code bash>
+tar zxvf /Infos/bd/spark/dataset/yago/YAGO2_2012_facts_schema_simpletypes.tgz
+</code>
+Pour aller plus loin, vous avez la possibilité de télécharger les  [[https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/|fichiers de YAGO]], en particulier le fichier
+[[http://resources.mpi-inf.mpg.de/yago-naga/yago3.1/yagoFacts.tsv.7z|yagofacts]] contenant les 12 millions de faits de Yago3.
@@ Ligne 97: / Ligne 128: @@
 </code>
-==== YAGO ====
-Des données issues de YAGO. Ce sont des triplets RDF.
-Le jeux de données complet contient plusieurs milliards de triplets. Pour faciliter les TME, on manipule un extrait contenant 5 millions de triplets :
-  * on considère seulement les faits : ce sont les triplets reliant deux ressources (pas de littéral).
-Pour récupérer les triplets :
-<code bash>
-cd /tmp/BDLE/dataset
-tar zxvf /Infos/bd/spark/dataset/yago/yagoFacts5M.tgz
-more yagoFacts5M.txt
-</code>
-Le séparateur de champ est le caractère tabulation "\t" (s'écrit "\\t" en scala)
-Les propriétés existant dans le dataset sont les suivantes (on donne le nom et la frequence des propriétés)
-<code bash>
-more /Infos/bd/spark/dataset/yago/yagoFacts5M_properties.txt
-</code>
-Pour aller plus loin, vous avez la possibilité de télécharger les  [[https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/|fichiers de YAGO]], en particulier le fichier
-[[http://resources.mpi-inf.mpg.de/yago-naga/yago3.1/yagoFacts.tsv.7z|yagofacts]] contenant les faits : ce sont les triplets (s,p,o) dont l'objet o est une ressource et non un littéral.

Bases de Données / Databases

Outils pour utilisateurs

Outils du site

Différences

Outils de la page