Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:supports-cours:spark

Ceci est une ancienne révision du document !


Supports Cours

Datasets utilisés

TPCH

Copier dans votre espace perso puis désarchiver

/.../tpch-extrait.tgz

En étant dans tpch-extrait, créer les données dans hdfs en tapant

hadoop fs -mkdir /tpch
hadoop fs -put lineitem.tbl /tpch
hadoop fs -put part.tbl /tpch

puis vérifier que les fichiers existent

hadoop fs -ls /tpch

Spark RDD

Commencer par charger les données en RDD

val tpch="/tpch/"
val lineitem_t = tpch+"lineitem.tbl"
val part_t = tpch+"part.tbl"

Spark SQL

site/enseignement/master/bdle/supports-cours/spark.1542299200.txt.gz · Dernière modification: 15/11/2018 17:26 par amine