Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:tmes:dataset

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
site:enseignement:master:bdle:tmes:dataset [17/10/2017 08:30]
hubert [Facebook]
site:enseignement:master:bdle:tmes:dataset [12/10/2019 18:39] (Version actuelle)
hubert [Jeux de données]
Ligne 1: Ligne 1:
-{{indexmenu_n>​6}}+{{indexmenu_n>​2}}
  
  
Ligne 5: Ligne 5:
  
 Cette page liste les jeux de données utilisables pour les TME de BDLE. Cette page liste les jeux de données utilisables pour les TME de BDLE.
 +Ils sont disponibles en ligne dans [[https://​nuage.lip6.fr/​s/​PQM3RgR4FRnMPQ9|PUBLIC_DATASET]] ou localement dans /​Infos/​bd/​spark/​dataset
 +
 +
  
 Préparation : créer un répertoire /​tmp/​BDLE/​dataset pour disposer temporairement des données. Préparation : créer un répertoire /​tmp/​BDLE/​dataset pour disposer temporairement des données.
Ligne 42: Ligne 45:
 Pour lister le nom des 50 propriétés les plus fréquentes : Pour lister le nom des 50 propriétés les plus fréquentes :
 <code bash> <code bash>
-cp /​Infos/​bd/​spark/​dataset/​dbpedia/​dbpediaPath50.txt  /​tmp/​BDLE/​dataset +cp /​Infos/​bd/​spark/​dataset/​dbpedia/​dbpediaShortName8MProperties.txt  /​tmp/​BDLE/​dataset 
-more  /​tmp/​BDLE/​dataset/​dbpediaPath50.txt+more /​tmp/​BDLE/​dataset/​dbpediaShortName8MProperties.txt
 </​code>​ </​code>​
  
Ligne 49: Ligne 52:
 <code bash> <code bash>
 cd /​tmp/​BDLE/​dataset cd /​tmp/​BDLE/​dataset
-tar zxvf /​Infos/​bd/​spark/​dataset/​dbpedia/​dbpedia8M.tgz +tar zxvf /​Infos/​bd/​spark/​dataset/​dbpedia/​dbpediaShortName8M.tgz 
-more dbpedia8M.txt+more dbpediaShortName8M.txt
 </​code>​ </​code>​
-Le séparateur de champ est le caractère tabulation "​\t"​+Le séparateur de champ est le caractère tabulation "​\t" ​(écrire split("​\\t"​) en scala)
  
  
-On donne aussi les triplets décrivant le **type** des ressources (sujet ou objet) du dataset. Ce sont des triplets dont le predicat est ''<​http://​dbpedia.org/​property/​type>​'' ​et dont le sujet correspond à une resource existant dans le dataset que vous avez décompressé ​dbpedia8M.+On donne aussi les triplets décrivant le **type** des ressources (sujet ou objet) du dataset. Ce sont des triplets dont le predicat est ''​<​type>''​ (correspond à l'​URI ​<​http://​dbpedia.org/​property/​type>​et dont le sujet est une resource existant dans le dataset que vous avez décompressé: dbpediaShortName8M.txt.
 Pour récupérer les types : Pour récupérer les types :
 +<code bash>
 +cp /​Infos/​bd/​spark/​dataset/​dbpedia/​dbpediaShortNameTypeFor8M.txt /​tmp/​BDLE/​dataset
 +</​code>​
 +
 +==== YAGO ====
 +
 +Des données issues de YAGO. Ce sont des triplets RDF (sujet, propriété,​ objet)
 +
 +Le jeux de données Yago3 complet contient plus de 100 millions de triplets. Pour faciliter les TME, on manipule un extrait contenant 5 millions de triplets :
 +  * on considère seulement les faits : ce sont les triplets reliant deux ressources ​ (aucun littéral).
 +  * on ne garde que les faits concernant un sujet relié à au moins 5 objets (ie. il y a au moins 5 faits dans Yago3 pour ce sujet), et un objet relié à au moins 5 sujets.
 +
 +Pour récupérer les triplets :
 <code bash> <code bash>
 cd /​tmp/​BDLE/​dataset cd /​tmp/​BDLE/​dataset
-cp /​Infos/​bd/​spark/​dataset/​dbpedia/dbpediaTypeFor8M.txt .+tar zxvf /​Infos/​bd/​spark/​dataset/​yago/yagoFacts5M.tgz 
 +more yagoFacts5M.txt
 </​code>​ </​code>​
 +Le séparateur de champ est le caractère tabulation "​\t"​ (écrire split("​\\t"​) en scala)
 +
 +Les propriétés existant dans le dataset sont les suivantes (on donne leur nom et leur frequence)
 +<code bash>
 +more /​Infos/​bd/​spark/​dataset/​yago/​yagoFacts5M_properties.txt
 +</​code>​
 +
 +=== YAGO2 ===
 +La dataset YAGO2 créé en 2012 contient 4 millions de faits et les **types** des individus
 +<code bash>
 +tar zxvf /​Infos/​bd/​spark/​dataset/​yago/​YAGO2_2012_facts_schema_simpletypes.tgz
 +</​code>​
 +
 +
  
  
 +Pour aller plus loin, vous avez la possibilité de télécharger les  [[https://​www.mpi-inf.mpg.de/​departments/​databases-and-information-systems/​research/​yago-naga/​yago/​downloads/​|fichiers de YAGO]], en particulier le fichier ​
 +[[http://​resources.mpi-inf.mpg.de/​yago-naga/​yago3.1/​yagoFacts.tsv.7z|yagofacts]] contenant les 12 millions de faits de Yago3.
  
  
Ligne 98: Ligne 131:
 </​code>​ </​code>​
  
-==== YAGO ==== + 
-Telecharger ​les  [[https://​www.mpi-inf.mpg.de/​departments/​databases-and-information-systems/​research/​yago-naga/​yago/​downloads/​|fichiers de YAGO]], en particulier le fichier  + 
-[[http://​resources.mpi-inf.mpg.de/​yago-naga/​yago3.1/​yagoFacts.tsv.7z|yagofacts]] contenant les faits : ce sont les triplets (s,p,o) dont l'​objet o est une ressource et non un littéral.+Retour vers les [[site:enseignement:​master:​bdle:​tmes:]]
site/enseignement/master/bdle/tmes/dataset.1508221834.txt.gz · Dernière modification: 17/10/2017 08:30 par hubert