Différences

Ci-dessous, les différences entre deux révisions de la page.

--- site:enseignement:master:bdle:tmes:projet2020 [27/11/2020 11:14]
amine [Projet 2]
+++ site:enseignement:master:bdle:tmes:projet2020 [14/12/2020 09:47] (Version actuelle)
amine [Modalités]
@@ Ligne 26: / Ligne 26: @@
 Le notebook des réponses devra contenir les informations suivantes :
-  * Nom(s) et prénom(s) du groupe
+  * Nom(s) et prénom(s) du groupe  (monôme ou binôme mais pas au delà)
   * Description des données utilisées
-    *  Source : lien
+    * Source : lien vers la source publique des données ou lien de téléchargement si pas de lien publique
     * Taille : en MB et en nb_lignes
-    * Description breve : domaine, variable à prédire
+    * Description breve des données, quelle est la variable à prédire
+    * L'argumentaire demandé dans chacune des taches décrites ci-dessous
 ==== Modalités ====
-Rendre un lien vers un **notebook** Databricks  + petit compte-rendu (suivant **trame**)
+Rendre
-Date de remise : **10-12-2020** (voire plus tard si les circonstances ne le permettent pas, mais pas au delà du *20-12-2020*)
+  - un document pdf avec lien vers un **notebook** Databricks contenant **code source** et **informations** décrites ci-haut
+  - un document HTML obtenu en exportant votre **notebook**
+Date de remise : à partir du **10-12-2020** jusqu'au **20-12-2020 23h59** sur
+[[https://moodle-sciences.upmc.fr/moodle-2020/course/view.php?id=3209|Moodle]]
-Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours,
+Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours, Le langage utilisé est **Scala**.
 L'objectif principal  est d'être confronté à des problématiques réelles rencontrées lorsqu'on traite des données "brutes".
 Vous être libre d'utiliser le dataset de votre choix dont la taille sera entre 10 MB et 50 MB.
@@ Ligne 62: / Ligne 66: @@
 A titre d'exemple, pour un dataset avec des attributs timestamps, envisager une opération roll-up vers le mois ou l'année.
-Construire une paire 30%-70%d de jeux de test et d'entrainement.
+Construire une paire 30%-70% de jeux de test et d'entrainement.
 Lancer l'entrainement de l'arbre de décision puis afficher ses paramètres.

Bases de Données / Databases

Outils pour utilisateurs

Outils du site

Différences

Outils de la page