5I852 BDLE : Bases de Données Large Echelle (2018-2019)

ANCIENNE ANNEE! ALLER VERS L'ANNEE COURANTE

EDT UPMC Master

Salle Cours :

Jusqu'au 09-11-2018 inclus : Salle 207 24/34
A partir du 30-11-2018 : Salle 201 24/34

Salles TME :

Groupe 1 : 501 Tour 14/15
Groupe 2 : 502 Tour 14/15

Mails Equipe pédagogique :

mohamed-amine.baazizi@lip6.fr (responsable)
camelia.constantin@lip6.fr
anne.doucet@lip6.fr
hubert.naacke@lip6.fr

Description

L’explosion de données conduit à reconsidérer radicalement les méthodologie de traitement de celles-ci tant au niveau performance et efficacité d’accès qu’au niveau acquisition, préparation et structuration. Les plateformes se basant sur le paradigme MapReduce ont été mises oeuvre pour relever ces deux défis à la fois et sont en continuelle évolution pour répondre aux besoins croissants en terme d’analyse de données massives.

Ce cours permet de se familiariser avec la méthodologie de traitement de données massives qui s’articule autour de deux axes : i) collecte, agrégation et génération de données et ii) analyse de données. Le premier axe sera abordé sous l’angle de la nouvelle démarche de manipulation et d’exploration de données massives dénotée REPL (Read Evaluate Print Loop) fortement inspirée des systèmes d’analyse comme R. Le système Spark, fortement répandu, est étudié et utilisé tout au long du cours. Le second axe sera abordé selon deux cas d’études : a) analyse de données multidimensionnelles à l’aide de requêtes SQL sur des cubes de données , b) analyse statistique de graphes sociaux en utilisant des techniques connues (PageRank, Hits, etc) et c) et interrogation de graphes de données à l’aide de langages récents tels que Cipher de Neo4J.

Pré-requis

SQL
Scala : Mémo Exercices corrigés

Liens utiles

Le Mini-projet 2018
le sommaire des TMEs, l'utilisation de spark et les jeux de données.
le forum BDLE sur le LIP6 Mattermost

Planning

Semaine	Date	Theme	Cours	TME	Gr1	Gr2
1	21-09-2018	Entrepôts de données: Objectifs et conception	Cours 1-2	TME TPCH	A.Doucet	H. Naacke
2	28-09-2018	Modèle de données multi-dimensionnelles	Cours 1-2	TME AP	A.Doucet	H. Naacke
3	05-10-2018	Requêtes et opérateurs multidimensionnels, OLAP	TME Cube TME de 8h30 à 10h30 salles habituelles	suite du TME Cube de 10h45 à 12h45	A.Doucet	H. Naacke
4	12-10-2018	Introduction à MapReduce et à Spark	Article Présentation de Spark	[TME II-1] Introduction à Spark (Algèbre RDD)	M.-A. Baazizi	C. Constantin
5	19-10-2018	Exécution de MapReduce et de Spark		[TME II-2] Algèbre Spark: Dataset	M.-A. Baazizi	H. Naacke
6	26-10-2018	Requêtes relationnelles en Map Reduce et en Spark	Article de Spark SQL	travail sur le Mini-projet 2018	M.-A. Baazizi	H.Naacke
	02-11-2018	Toussaint
7	09-11-2018	Données semi-structurées massives		présentations Mini-projet 2018	M.-A. Baazizi	H. Naacke
	16-11-2018	pas de cours
	23-11-2018	Examen réparti 1
8	30-11-2018	Exécution dans Spark 1/2	cours 8-9	TME Données réparties et jointure parallèle	H.Naacke	M.-A. Baazizi
9	07-12-2018	Exécution dans Spark 2/2	cours 8-9	TME Données réparties et jointure parallèle	H.Naacke	M.-A. Baazizi
10	14-12-2018	Transactions à large échelle	cours 10	suite du TME Données réparties et jointure parallèle TME KVStore (facultatif)	H.Naacke	M.-A. Baazizi
11	21-12-2018	Graphes en RDD	Cours 11	graphes-spark	C.Constantin	H. Naacke
	28-12-2018	vacances de fin d'année
	04-01-2018	vacances de fin d'année
12	11-01-2019	API GraphX	Cours 12-13	graphes-graphx	C.Constantin	H. Naacke
13	18-01-2019	API GraphX	Cours 12-13	graphes-graphx	C.Constantin	H. Naacke
14	25-01-2019	Requêtes graphes - Récursion Neo4J	Cours 14	Calculs sur les graphes en Neo4J	C.Constantin	M.-A. Baazizi
	01-02-2019	Révisions
	08-02-2019	Examen réparti 2

ANCIENNE ANNEE! ALLER VERS L'ANNEE COURANTE

Annales

Les solutions (SANS GARANTIE!) seront migrées au fur et à mesure ici lien

Elements de sujet de 2017 Algèbre Spark ou Dataset

Elements de sujet de 2016

Algèbre Spark ou Dataset

Elements de sujet de 2015

Execution Spark - KVStore et avec corrigé examen 2015 corrigé
Algèbre Spark
OLAP
Graphes (2016)

Accès réservé aux enseignants : DBUFR 2018, ( DBUFR 2017)

Table des matières