Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
site:enseignement:master:bdle:tmes:projet2020 [27/11/2020 11:17] amine [Projet 2] |
site:enseignement:master:bdle:tmes:projet2020 [14/12/2020 09:47] (Version actuelle) amine [Modalités] |
||
---|---|---|---|
Ligne 26: | Ligne 26: | ||
Le notebook des réponses devra contenir les informations suivantes : | Le notebook des réponses devra contenir les informations suivantes : | ||
- | * Nom(s) et prénom(s) du groupe | + | * Nom(s) et prénom(s) du groupe (monôme ou binôme mais pas au delà) |
* Description des données utilisées | * Description des données utilisées | ||
- | * Source : lien vers source publique et éventuellement lien vers téléchargement | + | * Source : lien vers la source publique des données ou lien de téléchargement si pas de lien publique |
* Taille : en MB et en nb_lignes | * Taille : en MB et en nb_lignes | ||
- | * Description breve : domaine, variable à prédire | + | * Description breve des données, quelle est la variable à prédire |
* L'argumentaire demandé dans chacune des taches décrites ci-dessous | * L'argumentaire demandé dans chacune des taches décrites ci-dessous | ||
Ligne 36: | Ligne 36: | ||
==== Modalités ==== | ==== Modalités ==== | ||
- | Rendre un lien vers un **notebook** Databricks contenant *code source* et *informations* décrites ci-haut. | + | Rendre |
- | Date de remise : **10-12-2020** (voire plus tard si les circonstances ne le permettent pas, mais pas au delà du *20-12-2020*) | + | - un document pdf avec lien vers un **notebook** Databricks contenant **code source** et **informations** décrites ci-haut |
+ | - un document HTML obtenu en exportant votre **notebook** | ||
+ | Date de remise : à partir du **10-12-2020** jusqu'au **20-12-2020 23h59** sur | ||
+ | [[https://moodle-sciences.upmc.fr/moodle-2020/course/view.php?id=3209|Moodle]] | ||
- | Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours, | + | Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours, Le langage utilisé est **Scala**. |
L'objectif principal est d'être confronté à des problématiques réelles rencontrées lorsqu'on traite des données "brutes". | L'objectif principal est d'être confronté à des problématiques réelles rencontrées lorsqu'on traite des données "brutes". | ||
Vous être libre d'utiliser le dataset de votre choix dont la taille sera entre 10 MB et 50 MB. | Vous être libre d'utiliser le dataset de votre choix dont la taille sera entre 10 MB et 50 MB. | ||
Ligne 63: | Ligne 66: | ||
A titre d'exemple, pour un dataset avec des attributs timestamps, envisager une opération roll-up vers le mois ou l'année. | A titre d'exemple, pour un dataset avec des attributs timestamps, envisager une opération roll-up vers le mois ou l'année. | ||
- | Construire une paire 30%-70%d de jeux de test et d'entrainement. | + | Construire une paire 30%-70% de jeux de test et d'entrainement. |
Lancer l'entrainement de l'arbre de décision puis afficher ses paramètres. | Lancer l'entrainement de l'arbre de décision puis afficher ses paramètres. |