Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
site:enseignement:master:bdle:tmes:dataset [19/10/2017 15:06] hubert [YAGO] |
site:enseignement:master:bdle:tmes:dataset [12/10/2019 18:39] (Version actuelle) hubert [Jeux de données] |
||
---|---|---|---|
Ligne 5: | Ligne 5: | ||
Cette page liste les jeux de données utilisables pour les TME de BDLE. | Cette page liste les jeux de données utilisables pour les TME de BDLE. | ||
+ | Ils sont disponibles en ligne dans [[https://nuage.lip6.fr/s/PQM3RgR4FRnMPQ9|PUBLIC_DATASET]] ou localement dans /Infos/bd/spark/dataset | ||
+ | |||
+ | |||
Préparation : créer un répertoire /tmp/BDLE/dataset pour disposer temporairement des données. | Préparation : créer un répertoire /tmp/BDLE/dataset pour disposer temporairement des données. | ||
Ligne 63: | Ligne 66: | ||
==== YAGO ==== | ==== YAGO ==== | ||
- | Des données issues de YAGO. Ce sont des triplets RDF. | + | Des données issues de YAGO. Ce sont des triplets RDF (sujet, propriété, objet) |
- | Le jeux de données complet contient plusieurs milliards de triplets. Pour faciliter les TME, on manipule un extrait contenant 5 millions de triplets : | + | Le jeux de données Yago3 complet contient plus de 100 millions de triplets. Pour faciliter les TME, on manipule un extrait contenant 5 millions de triplets : |
- | * on considère seulement les faits : ce sont les triplets reliant deux ressources (aucun littéral). | + | * on considère seulement les faits : ce sont les triplets reliant deux ressources (aucun littéral). |
+ | * on ne garde que les faits concernant un sujet relié à au moins 5 objets (ie. il y a au moins 5 faits dans Yago3 pour ce sujet), et un objet relié à au moins 5 sujets. | ||
Pour récupérer les triplets : | Pour récupérer les triplets : | ||
Ligne 81: | Ligne 85: | ||
</code> | </code> | ||
+ | === YAGO2 === | ||
+ | La dataset YAGO2 créé en 2012 contient 4 millions de faits et les **types** des individus | ||
+ | <code bash> | ||
+ | tar zxvf /Infos/bd/spark/dataset/yago/YAGO2_2012_facts_schema_simpletypes.tgz | ||
+ | </code> | ||
Ligne 86: | Ligne 95: | ||
Pour aller plus loin, vous avez la possibilité de télécharger les [[https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/|fichiers de YAGO]], en particulier le fichier | Pour aller plus loin, vous avez la possibilité de télécharger les [[https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/|fichiers de YAGO]], en particulier le fichier | ||
- | [[http://resources.mpi-inf.mpg.de/yago-naga/yago3.1/yagoFacts.tsv.7z|yagofacts]] contenant tous les faits. | + | [[http://resources.mpi-inf.mpg.de/yago-naga/yago3.1/yagoFacts.tsv.7z|yagofacts]] contenant les 12 millions de faits de Yago3. |
Ligne 123: | Ligne 132: | ||
+ | |||
+ | Retour vers les [[site:enseignement:master:bdle:tmes:]] |