Cette page liste les jeux de données utilisables pour les TME de BDLE. Ils sont disponibles en ligne dans PUBLIC_DATASET ou localement dans /Infos/bd/spark/dataset
Préparation : créer un répertoire /tmp/BDLE/dataset pour disposer temporairement des données.
if [ ! -d /tmp/BDLE/dataset ] ; then mkdir -p /tmp/BDLE/dataset; fi
Trois fichiers: movies.dat users.dat et ratings.dat
cp -r /Infos/bd/spark/dataset/movielens /tmp/BDLE/dataset cd /tmp/BDLE/dataset/movielens more README-movielens.txt
Des données décrivant des universités, personnels et étudiants.
cd /tmp/BDLE/dataset tar zxvf /Infos/bd/spark/dataset/watdiv/watdiv1M.tgz
Exemple de requêtes posées sur ce jeu de données avec des exemples de propriétés que vous pouvez interroger.
Plus d'informations su le site de WatDiv
Des données issues de Wikipedia. Ce sont des triplets RDF.
Le jeux de données complet contient 60 millions de triplets. Pour faciliter les TME, on manipule un extrait de DBPedia contenant 8 millions de triplets :
Pour lister le nom des 50 propriétés les plus fréquentes :
cp /Infos/bd/spark/dataset/dbpedia/dbpediaShortName8MProperties.txt /tmp/BDLE/dataset more /tmp/BDLE/dataset/dbpediaShortName8MProperties.txt
Pour récupérer les triplets :
cd /tmp/BDLE/dataset tar zxvf /Infos/bd/spark/dataset/dbpedia/dbpediaShortName8M.tgz more dbpediaShortName8M.txt
Le séparateur de champ est le caractère tabulation “\t” (écrire split(“\\t”) en scala)
On donne aussi les triplets décrivant le type des ressources (sujet ou objet) du dataset. Ce sont des triplets dont le predicat est <type>
(correspond à l'URI <http://dbpedia.org/property/type>) et dont le sujet est une resource existant dans le dataset que vous avez décompressé: dbpediaShortName8M.txt.
Pour récupérer les types :
cp /Infos/bd/spark/dataset/dbpedia/dbpediaShortNameTypeFor8M.txt /tmp/BDLE/dataset
Des données issues de YAGO. Ce sont des triplets RDF (sujet, propriété, objet)
Le jeux de données Yago3 complet contient plus de 100 millions de triplets. Pour faciliter les TME, on manipule un extrait contenant 5 millions de triplets :
Pour récupérer les triplets :
cd /tmp/BDLE/dataset tar zxvf /Infos/bd/spark/dataset/yago/yagoFacts5M.tgz more yagoFacts5M.txt
Le séparateur de champ est le caractère tabulation “\t” (écrire split(“\\t”) en scala)
Les propriétés existant dans le dataset sont les suivantes (on donne leur nom et leur frequence)
more /Infos/bd/spark/dataset/yago/yagoFacts5M_properties.txt
La dataset YAGO2 créé en 2012 contient 4 millions de faits et les types des individus
tar zxvf /Infos/bd/spark/dataset/yago/YAGO2_2012_facts_schema_simpletypes.tgz
Pour aller plus loin, vous avez la possibilité de télécharger les fichiers de YAGO, en particulier le fichier yagofacts contenant les 12 millions de faits de Yago3.
Une base de médicaments. Les données sont des triplets RDF (sujet, propriétés, objet).
cd /tmp/BDLE/dataset tar zxvf /Infos/bd/spark/dataset/drugbank/drugbank_dump.tgz
La liste des noms de propriétés est dans drugbank_properties.txt
cp /Infos/bd/spark/dataset/drugbank/drugbank_properties.txt /tmp/BDLE/dataset more /tmp/BDLE/dataset/drugbank_properties.txt
Les mots-clés contenus dans les publications scientifiques, en médecine, depuis l'année 2000 jusqu'en 2015. Un mot-clé est appelé un terme et peut être formé de plusieurs mots (par exemple, le terme 'campagne de vaccination'). Une publication est identifiée par son numéro. On connait l'année de publication. Format : terme;publication;année. Le séparateur de champ est un point virgule.
cd /tmp/BDLE/dataset tar zxvf /Infos/bd/spark/dataset/medline/medline2000.tgz
cd /tmp/BDLE/dataset tar zxvf /Infos/bd/spark/dataset/freebase/freebase_snippet_surls.tgz
cp /Infos/bd/spark/dataset/facebook/*csv /tmp/BDLE/dataset
Retour vers les TMEs