Table des matières

MU5IN852 : Bases de Données Large Echelle (2019-2020)

Années précédentes

EDT UPMC Master

Salle Cours :

Salles TME (jusqu'au 20-12-2019 inclus) :

Mails Equipe pédagogique :

Description

L’explosion de données conduit à reconsidérer radicalement les méthodologie de traitement de celles-ci tant au niveau performance et efficacité d’accès qu’au niveau acquisition, préparation et structuration. Les plateformes se basant sur le paradigme MapReduce ont été mises oeuvre pour relever ces deux défis à la fois et sont en continuelle évolution pour répondre aux besoins croissants en terme d’analyse de données massives.

Ce cours permet de se familiariser avec la méthodologie de traitement de données massives qui s’articule autour de deux axes : i) collecte, agrégation et génération de données et ii) analyse de données. Le premier axe sera abordé sous l’angle de la nouvelle démarche de manipulation et d’exploration de données massives dénotée REPL (Read Evaluate Print Loop) fortement inspirée des systèmes d’analyse comme R. Le système Spark, fortement répandu, est étudié et utilisé tout au long du cours. Le second axe sera abordé selon deux cas d’études : a) analyse de données multidimensionnelles à l’aide de requêtes SQL sur des cubes de données , b) analyse statistique de graphes sociaux en utilisant des techniques connues (PageRank, Hits, etc) et c) et interrogation de graphes de données à l’aide de langages récents tels que Cypher de Neo4J.

Liens utiles

Planning

Semaine Date Theme Cours TME Gr1 Gr2
1 20-09-2019 Préparation, analyse et visualisation de données massives 1/3 introduction et lancement du projet TME 1 H. Naacke B. Amann
2 27-09-2019 Préparation, analyse et visualisation de données massives 2/3 Agrégations multidim en SQL TME 2 H. Naacke B. Amann
3 04-10-2019 Préparation, analyse et visualisation de données massives 3/3 Fonctions de fenêtrage TME 3 H. Naacke B. Amann
4 11-10-2019 Introduction à MapReduce - Spark et Scala Cours Lien nuage (TME1) M-A. Baazizi H. Naacke
5 18-10-2019 Interrogation de données structurées en SparkCours Lien nuage (TME2) M-A. Baazizi H. Naacke
6 25-10-2019 Interrogation de données semi-structurées en Spark - Optimisation logique Cours Lien nuage (TME3) M-A. Baazizi H. Naacke
01-11-2019 Toussaint
7 08-11-2019 Aperçu du modèle d’exécution Map-Reduce et Spark – Présentation DM (devoir maison) Cours rattrapage TMEs 1,2,3 - Démarrage Devoir maison M-A. Baazizi H. Naacke
15-11-2019 Révisions
22-11-2019 Examen réparti 1
8 29-11-2019 Stockage à l'échelle du Web HDFS, ORC, partitions Notebook TP Stockage H. Naacke M-A. Baazizi
9 06-12-2019 Optimisation de requêtes modèle d'exécution Notebook TP Stockage et Plans H. Naacke M-A. Baazizi
10 13-12-2019 Tuning cours/TD correction des annales Notebook TP Stockage et Plans H. Naacke M-A. Baazizi
11 20-12-2019 Graphes en Spark Cours 11-12 TP DataFrame Une solution calcul trianglesC.Constantin M-A. Baazizi
27-12-2019 vacances de fin d'année
03-01-2019 vacances de fin d'année
12 10-01-2020 Graphes en Spark Cours 11-12 TP DataFrameC.Constantin B. Amann
13 17-01-2020 API GraphX Cours 13 graphes-graphx, Notebook GraphX C.Constantin B. Amann
14 24-01-2020 Requêtes graphes - Récursion Neo4J Cours 14 Calculs sur les graphes en Neo4J C.Constantin B. Amann
31-01-2020 Révisions
07-02-2020 Examen réparti 2

Annales

Les solutions (SANS GARANTIE!) seront migrées au fur et à mesure ici lien

Accès réservé aux enseignants :

DBUFR3 2019-2020 ou DBUFR2 2019-2020