Classement de données
Nous allons travailler sur les données cinématographiques du TME DMReglesAssoc et utiliser l'interface graphique Oracle Data Miner (voir DMOracle).
http://docs.oracle.com/cd/B13789_01/datamine.101/b10698/3predict.htm
Exercices
Importance d'attributs
- Créez une vue ROLEFILM qui correspond à la jointure naturelle entre les tables ROLE et FILM (Data->Create View).
Calculez pour tous les attributs de la table ROLEFILM leur importance (minimum description length) dans la prédiction de l'attribut cible NOM_REALISATEUR (Model->Attribute Importance).
Explications Minimum Descriptor Length
- Créez une vue ROLEFILMCINEMA qui correspond à la jointure naturelle entre les tables ROLE , FILM , SEANCE et CINEMA .
- Lequel parmi les trois attributs ARRONDISSEMENT , NOM_REALISATEUR et NOM_ACTEUR est le plus important dans la prédiction de l'attribut cible NOM_CINEMA ?
Méthode "Bayesien Naïf"
- Séparez les données dans la vue ROLEFILMCINEMA en 70% de données d'entrainement et 30% de données test (Data->Transform->Split). Le résultat de la séparation doit être matérialisé dans deux tables ROLEFILMCINEMAB et ROLEFILMCINEMAT .
- Créez un modèle de classement M1 pour l'attribut cible NOM_CINEMA (en utilisant les autres attributs de prédiction ARRONDISSEMENT , NOM_REALISATEUR et NOM_ACTEUR de la table ROLEFILMCINEMAB pour l'entrainement et les paramètres par défaut (Naive Bayes, sans matrice de coût et indication sur la distribution des classes). (Model->Classification->Build)
Validez le modèle M1 (Model->Classification->Test"):
- avec les données de la table ROLEFILMCINEMAT (standard test).
- avec les données de la vue ROLEFILMCINEMAB (cross validation test)
Explication Leave-one-out cross-validation
- Combien d'erreurs de classement ont été détectées pour chacun des deux tests?
Calculez le score pour la classe NOM_CINEMA=Bastille et le modèle M1 dans la table ROLEFILMCINEMAT et affichez la courbe Lift (Model->Classification->Lift). Interprétez le résultat obtenu.
Explications Lift
- Créez un modèle de classement M2 pour l'attribut cible NOM_CINEMA comme avant, mais en utilisant uniquement les attributs NOM_ACTEUR et NOM_REALISATEUR comme attributs de sélection.
- Validez le modèle M2 généré avec les données de la table ROLEFILMCINEMAT et la vue ROLEFILMCINEMA .
- Calculez le score pour la classe NOM_CINEMA=Bastille et le modèle M2 dans la table ROLEFILMCINEMAT et affichez la courbe Lift (Model->Classification->Lift). Interprétez le résultat obtenu.
Méthode "Adaptive Bayes Network"
Créez un modèle de classement pour l'attribut cible NOM_REALISATEUR dans la vue ROLEFILMCINEMA en utilisant les attributs de prédiction NOM_CINEMA , ANNEE et NOM_ACTEUR et l'approche Adaptive Bayes Network
- singleFeatureBuild (affichez les règles de classement générées par la méthode singleFeatureBuild)
- multiFeatureBuild
- naiveBayesBuild
- Validez et comparez les modèle générés avec les données de la vue ROLEFILMCINEMA (validation croisée).