Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:tmes:dataset

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
site:enseignement:master:bdle:tmes:dataset [21/09/2018 15:22]
hubert [YAGO]
site:enseignement:master:bdle:tmes:dataset [12/10/2019 18:39] (Version actuelle)
hubert [Jeux de données]
Ligne 5: Ligne 5:
  
 Cette page liste les jeux de données utilisables pour les TME de BDLE. Cette page liste les jeux de données utilisables pour les TME de BDLE.
 +Ils sont disponibles en ligne dans [[https://​nuage.lip6.fr/​s/​PQM3RgR4FRnMPQ9|PUBLIC_DATASET]] ou localement dans /​Infos/​bd/​spark/​dataset
 +
 +
  
 Préparation : créer un répertoire /​tmp/​BDLE/​dataset pour disposer temporairement des données. Préparation : créer un répertoire /​tmp/​BDLE/​dataset pour disposer temporairement des données.
Ligne 63: Ligne 66:
 ==== YAGO ==== ==== YAGO ====
  
-Des données issues de YAGO. Ce sont des triplets RDF.+Des données issues de YAGO. Ce sont des triplets RDF (sujet, propriété,​ objet)
  
-Le jeux de données complet contient plus de 100 millions de triplets. Pour faciliter les TME, on manipule un extrait contenant 5 millions de triplets : +Le jeux de données ​Yago3 complet contient plus de 100 millions de triplets. Pour faciliter les TME, on manipule un extrait contenant 5 millions de triplets : 
-  * on considère seulement les faits : ce sont les triplets reliant deux ressources (aucun littéral).+  * on considère seulement les faits : ce sont les triplets reliant deux ressources ​ (aucun littéral)
 +  * on ne garde que les faits concernant un sujet relié à au moins 5 objets (ie. il y a au moins 5 faits dans Yago3 pour ce sujet), et un objet relié à au moins 5 sujets.
  
 Pour récupérer les triplets : Pour récupérer les triplets :
Ligne 81: Ligne 85:
 </​code>​ </​code>​
  
- +=== YAGO2 === 
-La dataset YAGO2 contient 4 millions de faits et les types des individus+La dataset YAGO2 créé en 2012 contient 4 millions de faits et les **types** des individus
 <code bash> <code bash>
 tar zxvf /​Infos/​bd/​spark/​dataset/​yago/​YAGO2_2012_facts_schema_simpletypes.tgz tar zxvf /​Infos/​bd/​spark/​dataset/​yago/​YAGO2_2012_facts_schema_simpletypes.tgz
Ligne 91: Ligne 95:
  
 Pour aller plus loin, vous avez la possibilité de télécharger les  [[https://​www.mpi-inf.mpg.de/​departments/​databases-and-information-systems/​research/​yago-naga/​yago/​downloads/​|fichiers de YAGO]], en particulier le fichier ​ Pour aller plus loin, vous avez la possibilité de télécharger les  [[https://​www.mpi-inf.mpg.de/​departments/​databases-and-information-systems/​research/​yago-naga/​yago/​downloads/​|fichiers de YAGO]], en particulier le fichier ​
-[[http://​resources.mpi-inf.mpg.de/​yago-naga/​yago3.1/​yagoFacts.tsv.7z|yagofacts]] contenant ​tous les faits.+[[http://​resources.mpi-inf.mpg.de/​yago-naga/​yago3.1/​yagoFacts.tsv.7z|yagofacts]] contenant les 12 millions de faits de Yago3.
  
  
Ligne 128: Ligne 132:
  
  
 +
 +Retour vers les [[site:​enseignement:​master:​bdle:​tmes:​]]
site/enseignement/master/bdle/tmes/dataset.1537536148.txt.gz · Dernière modification: 21/09/2018 15:22 par hubert