Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:tmes:dataset

Ceci est une ancienne révision du document !


Jeux de données

Cette page liste les jeux de données utilisables pour les TME de BDLE.

Préparation : créer un répertoire /tmp/BDLE/dataset pour disposer temporairement des données.

 if [ ! -d /tmp/BDLE/dataset ] ; then mkdir -p /tmp/BDLE/dataset; fi

Films

Trois fichiers: movies.dat users.dat et ratings.dat

cp -r /Infos/bd/spark/dataset/movielens /tmp/BDLE/dataset
cd /tmp/BDLE/dataset/movielens
more README-movielens.txt

Universités

Des données décrivant des universités, personnels et étudiants.

cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/watdiv/watdiv1M.tgz

Exemple de requêtes posées sur ce jeu de données avec des exemples de propriétés que vous pouvez interroger.

Plus d'informations su le site de WatDiv

DBPedia

Des données issues de Wikipedia. Ce sont des triplets RDF.

Le jeux de données complet contient 60 millions de triplets. Pour faciliter les TME, on manipule un extrait de DBPedia contenant 8 millions de triplets :

  • on ignore les triplets “terminant” vers un littéral.
  • on considère seulement les 50 propriétés les plus fréquentes

Pour lister le nom des 50 propriétés les plus fréquentes :

cp /Infos/bd/spark/dataset/dbpedia/dbpediaPath50.txt  /tmp/BDLE/dataset
more  /tmp/BDLE/dataset/dbpediaPath50.txt

Pour récupérer les triplets :

cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/dbpedia/dbpedia8M.tgz
more dbpedia8M.txt

Le séparateur de champ est le caractère tabulation “\t”

On donne aussi les triplets décrivant le type des ressources (sujet ou objet) du dataset. Ce sont des triplets dont le predicat est <http://dbpedia.org/property/type> et dont le sujet correspond à une resource existant dans le dataset que vous avez décompressé dbpedia8M. Pour récupérer les types :

cd /tmp/BDLE/dataset
cp /Infos/bd/spark/dataset/dbpedia/dbpediaTypeFor8M.txt .

Drugbank

Une base de médicaments. Les données sont des triplets RDF (sujet, propriétés, objet).

cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/drugbank/drugbank_dump.tgz

La liste des noms de propriétés est dans drugbank_properties.txt

cp /Infos/bd/spark/dataset/drugbank/drugbank_properties.txt  /tmp/BDLE/dataset
more /tmp/BDLE/dataset/drugbank_properties.txt

PubMed

Les mots-clés contenus dans les publications scientifiques, en médecine, depuis l'année 2000 jusqu'en 2015. Un mot-clé est appelé un terme et peut être formé de plusieurs mots (par exemple, le terme 'campagne de vaccination'). Une publication est identifiée par son numéro. On connait l'année de publication. Format : terme;publication;année. Le séparateur de champ est un point virgule.

cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/medline/medline2000.tgz

Extrait Freebase

cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/freebase/freebase_snippet_surls.tgz

Facebook

cp /Infos/bd/spark/dataset/facebook/*csv /tmp/BDLE/dataset
site/enseignement/master/bdle/tmes/dataset.1507888239.txt.gz · Dernière modification: 13/10/2017 11:50 par hubert