Table des matières

5I852 BDLE : Bases de Données Large Echelle (2018-2019)

ANCIENNE ANNEE! ALLER VERS L'ANNEE COURANTE

EDT UPMC Master

Salle Cours :

Salles TME :

Mails Equipe pédagogique :

Description

L’explosion de données conduit à reconsidérer radicalement les méthodologie de traitement de celles-ci tant au niveau performance et efficacité d’accès qu’au niveau acquisition, préparation et structuration. Les plateformes se basant sur le paradigme MapReduce ont été mises oeuvre pour relever ces deux défis à la fois et sont en continuelle évolution pour répondre aux besoins croissants en terme d’analyse de données massives.

Ce cours permet de se familiariser avec la méthodologie de traitement de données massives qui s’articule autour de deux axes : i) collecte, agrégation et génération de données et ii) analyse de données. Le premier axe sera abordé sous l’angle de la nouvelle démarche de manipulation et d’exploration de données massives dénotée REPL (Read Evaluate Print Loop) fortement inspirée des systèmes d’analyse comme R. Le système Spark, fortement répandu, est étudié et utilisé tout au long du cours. Le second axe sera abordé selon deux cas d’études : a) analyse de données multidimensionnelles à l’aide de requêtes SQL sur des cubes de données , b) analyse statistique de graphes sociaux en utilisant des techniques connues (PageRank, Hits, etc) et c) et interrogation de graphes de données à l’aide de langages récents tels que Cipher de Neo4J.

Pré-requis

Liens utiles

Planning

Semaine Date Theme Cours TME Gr1 Gr2
1 21-09-2018 Entrepôts de données: Objectifs et conception Cours 1-2TME TPCH A.Doucet H. Naacke
2 28-09-2018 Modèle de données multi-dimensionnelles Cours 1-2 TME AP A.Doucet H. Naacke
3 05-10-2018 Requêtes et opérateurs multidimensionnels, OLAP TME Cube TME de 8h30 à 10h30 salles habituelles suite du TME Cube de 10h45 à 12h45 A.Doucet H. Naacke
4 12-10-2018 Introduction à MapReduce et à Spark Article Présentation de Spark [TME II-1] Introduction à Spark (Algèbre RDD) M.-A. Baazizi C. Constantin
5 19-10-2018 Exécution de MapReduce et de Spark [TME II-2] Algèbre Spark: Dataset M.-A. Baazizi H. Naacke
6 26-10-2018 Requêtes relationnelles en Map Reduce et en Spark Article de Spark SQLtravail sur le Mini-projet 2018 M.-A. Baazizi H.Naacke
02-11-2018 Toussaint
7 09-11-2018 Données semi-structurées massives présentations Mini-projet 2018 M.-A. Baazizi H. Naacke
16-11-2018 pas de cours
23-11-2018 Examen réparti 1
8 30-11-2018 Exécution dans Spark 1/2 cours 8-9 TME Données réparties et jointure parallèle H.Naacke M.-A. Baazizi
9 07-12-2018 Exécution dans Spark 2/2 cours 8-9 TME Données réparties et jointure parallèle H.Naacke M.-A. Baazizi
10 14-12-2018 Transactions à large échelle cours 10 suite du TME Données réparties et jointure parallèle TME KVStore (facultatif) H.Naacke M.-A. Baazizi
11 21-12-2018 Graphes en RDD Cours 11graphes-spark C.Constantin H. Naacke
28-12-2018 vacances de fin d'année
04-01-2018 vacances de fin d'année
12 11-01-2019 API GraphX Cours 12-13 graphes-graphxC.Constantin H. Naacke
13 18-01-2019 API GraphX Cours 12-13 graphes-graphx C.Constantin H. Naacke
14 25-01-2019 Requêtes graphes - Récursion Neo4J Cours 14Calculs sur les graphes en Neo4J C.Constantin M.-A. Baazizi
01-02-2019Révisions
08-02-2019Examen réparti 2

ANCIENNE ANNEE! ALLER VERS L'ANNEE COURANTE

Annales

Les solutions (SANS GARANTIE!) seront migrées au fur et à mesure ici lien

Elements de sujet de 2017 Algèbre Spark ou Dataset

Elements de sujet de 2016

Elements de sujet de 2015

Accès réservé aux enseignants : DBUFR 2018, ( DBUFR 2017)

Archives enseignants

TME KVStore

TME KVStore (facultatif)

Fiches de lecture

1) CALVIN: Article publié dans TODS 2014 lire la section Scheduler and concurrency control. (voir aussi la version Sigmod 2012 et celle de VLDB 2014 sur deterministic DBMS)

2) Facebook TAO : TAO lire Sections 4.4 LeadersandFollowers et 4.5 Scaling Geographically

3) Elastras: Elastras (voir aussi la version TODS 2013)

4) EstoreEstore E-Store: Fine-Grained Elastic Partitioning for Distributed Transaction Processing Systems (voir aussi l'extension Signmod 2016 Clay: FineGrained Adaptive Partitioning for General Database Schemas.

5) Google F1 (XLDB2012) : Voir aussi Spanner