Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:tmes:dataset

Jeux de données

Cette page liste les jeux de données utilisables pour les TME de BDLE. Ils sont disponibles en ligne dans PUBLIC_DATASET ou localement dans /Infos/bd/spark/dataset

Préparation : créer un répertoire /tmp/BDLE/dataset pour disposer temporairement des données.

 if [ ! -d /tmp/BDLE/dataset ] ; then mkdir -p /tmp/BDLE/dataset; fi

Films

Trois fichiers: movies.dat users.dat et ratings.dat

cp -r /Infos/bd/spark/dataset/movielens /tmp/BDLE/dataset
cd /tmp/BDLE/dataset/movielens
more README-movielens.txt

Universités

Des données décrivant des universités, personnels et étudiants.

cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/watdiv/watdiv1M.tgz

Exemple de requêtes posées sur ce jeu de données avec des exemples de propriétés que vous pouvez interroger.

Plus d'informations su le site de WatDiv

DBPedia

Des données issues de Wikipedia. Ce sont des triplets RDF.

Le jeux de données complet contient 60 millions de triplets. Pour faciliter les TME, on manipule un extrait de DBPedia contenant 8 millions de triplets :

  • on ignore les triplets “terminant” vers un littéral.
  • on considère seulement les 50 propriétés les plus fréquentes

Pour lister le nom des 50 propriétés les plus fréquentes :

cp /Infos/bd/spark/dataset/dbpedia/dbpediaShortName8MProperties.txt  /tmp/BDLE/dataset
more /tmp/BDLE/dataset/dbpediaShortName8MProperties.txt

Pour récupérer les triplets :

cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/dbpedia/dbpediaShortName8M.tgz
more dbpediaShortName8M.txt

Le séparateur de champ est le caractère tabulation “\t” (écrire split(“\\t”) en scala)

On donne aussi les triplets décrivant le type des ressources (sujet ou objet) du dataset. Ce sont des triplets dont le predicat est <type> (correspond à l'URI <http://dbpedia.org/property/type>) et dont le sujet est une resource existant dans le dataset que vous avez décompressé: dbpediaShortName8M.txt. Pour récupérer les types :

cp /Infos/bd/spark/dataset/dbpedia/dbpediaShortNameTypeFor8M.txt /tmp/BDLE/dataset

YAGO

Des données issues de YAGO. Ce sont des triplets RDF (sujet, propriété, objet)

Le jeux de données Yago3 complet contient plus de 100 millions de triplets. Pour faciliter les TME, on manipule un extrait contenant 5 millions de triplets :

  • on considère seulement les faits : ce sont les triplets reliant deux ressources (aucun littéral).
  • on ne garde que les faits concernant un sujet relié à au moins 5 objets (ie. il y a au moins 5 faits dans Yago3 pour ce sujet), et un objet relié à au moins 5 sujets.

Pour récupérer les triplets :

cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/yago/yagoFacts5M.tgz
more yagoFacts5M.txt

Le séparateur de champ est le caractère tabulation “\t” (écrire split(“\\t”) en scala)

Les propriétés existant dans le dataset sont les suivantes (on donne leur nom et leur frequence)

more /Infos/bd/spark/dataset/yago/yagoFacts5M_properties.txt

YAGO2

La dataset YAGO2 créé en 2012 contient 4 millions de faits et les types des individus

tar zxvf /Infos/bd/spark/dataset/yago/YAGO2_2012_facts_schema_simpletypes.tgz

Pour aller plus loin, vous avez la possibilité de télécharger les fichiers de YAGO, en particulier le fichier yagofacts contenant les 12 millions de faits de Yago3.

Drugbank

Une base de médicaments. Les données sont des triplets RDF (sujet, propriétés, objet).

cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/drugbank/drugbank_dump.tgz

La liste des noms de propriétés est dans drugbank_properties.txt

cp /Infos/bd/spark/dataset/drugbank/drugbank_properties.txt  /tmp/BDLE/dataset
more /tmp/BDLE/dataset/drugbank_properties.txt

PubMed

Les mots-clés contenus dans les publications scientifiques, en médecine, depuis l'année 2000 jusqu'en 2015. Un mot-clé est appelé un terme et peut être formé de plusieurs mots (par exemple, le terme 'campagne de vaccination'). Une publication est identifiée par son numéro. On connait l'année de publication. Format : terme;publication;année. Le séparateur de champ est un point virgule.

cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/medline/medline2000.tgz

Extrait Freebase

cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/freebase/freebase_snippet_surls.tgz

Facebook

cp /Infos/bd/spark/dataset/facebook/*csv /tmp/BDLE/dataset

Retour vers les TMEs

site/enseignement/master/bdle/tmes/dataset.txt · Dernière modification: 12/10/2019 18:39 par hubert