Différences

Ci-dessous, les différences entre deux révisions de la page.

--- site:enseignement:master:bdle:tmes:projet2020 [26/11/2020 14:13]
amine [Modalités]
+++ site:enseignement:master:bdle:tmes:projet2020 [14/12/2020 09:47] (Version actuelle)
amine [Modalités]
@@ Ligne 24: / Ligne 24: @@
 ===== Projet 2 =====
-en construction ...rajouter notebook réponses et trame compte rendu
+Le notebook des réponses devra contenir les informations suivantes :
+  * Nom(s) et prénom(s) du groupe  (monôme ou binôme mais pas au delà)
+  * Description des données utilisées
+    * Source : lien vers la source publique des données ou lien de téléchargement si pas de lien publique
+    * Taille : en MB et en nb_lignes
+    * Description breve des données, quelle est la variable à prédire
+    * L'argumentaire demandé dans chacune des taches décrites ci-dessous
 ==== Modalités ====
-Rendre un lien vers un **notebook** Databricks  + petit compte-rendu (suivant **trame**)
+Rendre
-Date de remise : **10-12-2020**
+  - un document pdf avec lien vers un **notebook** Databricks contenant **code source** et **informations** décrites ci-haut
+  - un document HTML obtenu en exportant votre **notebook**
+Date de remise : à partir du **10-12-2020** jusqu'au **20-12-2020 23h59** sur
+[[https://moodle-sciences.upmc.fr/moodle-2020/course/view.php?id=3209|Moodle]]
-Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours,
+Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours, Le langage utilisé est **Scala**.
 L'objectif principal  est d'être confronté à des problématiques réelles rencontrées lorsqu'on traite des données "brutes".
 Vous être libre d'utiliser le dataset de votre choix dont la taille sera entre 10 MB et 50 MB.
@@ Ligne 55: / Ligne 66: @@
 A titre d'exemple, pour un dataset avec des attributs timestamps, envisager une opération roll-up vers le mois ou l'année.
-Construire une paire 30%-70%d de jeux de test et d'entrainement.
+Construire une paire 30%-70% de jeux de test et d'entrainement.
 Lancer l'entrainement de l'arbre de décision puis afficher ses paramètres.

Bases de Données / Databases

Outils pour utilisateurs

Outils du site

Différences

Outils de la page