Ceci est une ancienne révision du document !
Deux mini projets sont prévus
Lire le sujet du Projet 1
Rappels : notebook databricks du TP1, PUBLIC_DATASET, channel BDLE
Date de remise : déposer dans moodle une première version non définitive de votre projet le vendredi 23/10/2020 avant 8:30. Vous pourrez ensuite déposer une version finale jusqu’au jeudi 29/10/2020.
Pour la remise finale, les sections #Tache1 à #Tache4 doivent apparaitre très clairement dans le notebook comme titre de premier niveau. Commencer chaque section de tâche par quelques lignes résumant ce que vous avez réussi à faire. Ajouter votre NOM Prénom dans la première cellule du notebook
Fournir ceci dans la remise:
Projet terminé. Voir les éléments de solution dans Moodle.
en construction …
rajouter notebook et trame réponses
Rendre un lien vers un notebook Databricks + petit compte-rendu (suivant trame)
Date de remise : 10-12-2020
Le sujet traité est la réalisation d’un pipeline ML pour entrainer un arbre de décision pour la *régression* à l’aide de l'API Spark ML décrite en cours, L'objectif principal est d'être confronté à des problématiques réelles rencontrées lorsqu'on traite des données “brutes”. Vous être libre d'utiliser le dataset de votre choix dont la taille sera entre 10 MB et 50 MB. Ce dataset devra mixer entre valeurs textuelles et numériques. Vous pouvez également extraire un echantillon d'un dataset volumineux si besoin.
Les critères des deux derniers points seront définis en vous appuyant sur votre compréhension des données ou sur des indications fournies par l'auteur des données (ex. les données fournies dans le cadre d'un challenge sont souvent accompagnées de suggestions des participants)
Créer un pipeline pour encoder les features comme vu en cours : indexation des string, assemblage des vecteurs puis indexation.
Préciser quelles variables seront catgoricielles et quelles variables seront continues
Si besoin, transformation des attributs timestamps vers nombre ou bien extraction de l’année ou du mois.
Construire une paire 30%-70%d de jeux de test et d'entrainement.
Lancer l'entrainement de l'arbre de décision puis afficher ses paramètres.
Analyser les métriques RMSE et MAE et donner votre impression sur la qualité du modèle.
• Itération 1 : • Cross validation avec 3 folds, grid search sur paramètres pertinents • Sélection du meilleur modèle • Analyses des métriques RMSE et MAE si dispo • Iteration 2 : tentative d’amélioration de la précision • Elimination des valeurs aberrantes (si elles existent) • Imputation des valeurs manquantes (utiliser fonctions Spark ML) • Relancer l’inference et constater les nouvelles valeurs des métriques
• Comparer les résultats des deux itérations • Tenter d’expliquer la différence • Avis sur la libraire ML : difficultés rencontrées, aspects appréciés