Table des matières

MU5IN852 : Bases de Données Large Echelle (2020-2021)

EDT du Master (ou su cal )

Moodle

Liens zoom pour les cours des intervenants Gather Town (TME)

Mails Equipe pédagogique :

Description

L’explosion de données conduit à reconsidérer radicalement les méthodologie de traitement de celles-ci tant au niveau performance et efficacité d’accès qu’au niveau acquisition, préparation et structuration. Les plateformes se basant sur le paradigme MapReduce ont été mises oeuvre pour relever ces deux défis à la fois et sont en continuelle évolution pour répondre aux besoins croissants en terme d’analyse de données massives.

Ce cours permet de se familiariser avec la méthodologie de traitement de données massives qui s’articule autour de deux axes : i) collecte, agrégation et génération de données et ii) analyse de données. Le premier axe sera abordé sous l’angle de la nouvelle démarche de manipulation et d’exploration de données massives dénotée REPL (Read Evaluate Print Loop) fortement inspirée des systèmes d’analyse comme R. Le système Spark, fortement répandu, est étudié et utilisé tout au long du cours. Le second axe sera abordé selon deux cas d’études : a) analyse de données multidimensionnelles à l’aide de requêtes SQL sur des cubes de données , b) analyse statistique de graphes sociaux en utilisant des techniques connues (PageRank, Hits, etc) et c) et interrogation de graphes de données à l’aide de langages récents tels que Cypher de Neo4J.

Liens utiles

Planning

Semaine Date Theme Cours TME Gr1 Gr2
0 02-10-2020 Mise à niveau - Révision (Amphi 45A) révisions SQL
1 09-10-2020 Analyse multidimensionnelle en SQL SQL à large échelle et projet IMDB et début de Conception multidimensionnelle : faits et dimensions notebook databricks du TP1 H. Naacke B. Amann
2 16-10-2020 Préparation, analyse et visualisation de données massives 2/3 fin de SQL multidim: CUBE et fenêtres (complément hors cours:Agrégations multidim en SQL) TP2 H. Naacke B. Amann
3 23-10-2020 Préparation, analyse et visualisation de données massives 3/3 cours streaming fin du TP2 et suite mini projet H. Naacke B. Amann
4 30-10-2020 Introduction à MapReduce - Spark et Scala Intro, MR, Spark et Scala TME 4 M-A. Baazizi H. Naacke
5 06-11-2020 Interrogation de données structurées en Spark Spark SQL TME 5 M-A. Baazizi H. Naacke
13-11-2020 Toussaint
6 20-11-2020 Aperçu sur la préparation de données pour le ML en Spark Spark ML TME 6 M-A. Baazizi H. Naacke
7 27-11-2020 Aperçu du modèle d’exécution Map-Reduce et Spark - Optimisation logique Eval. Spark RDD et SQL - Intro TME 7 M-A. Baazizi H. Naacke
04-12-2020 ER1
8 11-12-2020 Stockage à l'échelle du Web voir moodle voir moodle H. Naacke M-A. Baazizi
9 18-12-2020 Optimisation de requêtes voir moodle voir moodle H. Naacke M-A. Baazizi
25-12-2020 vacances de fin d'année
01-01-2021 vacances de fin d'année
10 08-01-2021 Tuning cours/TD correction des annales moodle H. Naacke M-A. Baazizi
11 15-01-2021 Graphes en Spark cours graphes en Spark TME graphes DataFrames C.Constantin M-A. Baazizi
12 22-01-2021 Graphes en Spark cours graphes en Spark TME graphes DataFrames C.Constantin B. Amann
13 29-01-2021 API GraphX cours GraphX TME GraphX C.Constantin B. Amann
14 05-02-2021 Requêtes graphes - Récursion Neo4J cours Neo4J TME Neo4J C.Constantin B. Amann
12-02-2020 Révisions
19-02-2020 ER2

Annales

Les solutions (SANS GARANTIE!) seront migrées au fur et à mesure ici lien

Accès réservé aux enseignants (A MAJ):

DBUFR4 2020-2021