ODMiner, LesTme, Accueil


Classement de données

Nous allons travailler sur les données cinématographiques du TME DMReglesAssoc et utiliser l'interface graphique Oracle Data Miner (voir DMOracle).

http://docs.oracle.com/cd/B13789_01/datamine.101/b10698/3predict.htm

Exercices

Importance d'attributs

  1. Créez une vue ROLEFILM qui correspond à la jointure naturelle entre les tables ROLE et FILM (Data->Create View).
  2. Calculez pour tous les attributs de la table ROLEFILM leur importance (minimum description length) dans la prédiction de l'attribut cible NOM_REALISATEUR (Model->Attribute Importance).

    Explications Minimum Descriptor Length

  3. Créez une vue ROLEFILMCINEMA qui correspond à la jointure naturelle entre les tables ROLE , FILM , SEANCE et CINEMA .
  4. Lequel parmi les trois attributs ARRONDISSEMENT , NOM_REALISATEUR et NOM_ACTEUR est le plus important dans la prédiction de l'attribut cible NOM_CINEMA ?

Méthode "Bayesien Naïf"

  1. Séparez les données dans la vue ROLEFILMCINEMA en 70% de données d'entrainement et 30% de données test (Data->Transform->Split). Le résultat de la séparation doit être matérialisé dans deux tables ROLEFILMCINEMAB et ROLEFILMCINEMAT .
  2. Créez un modèle de classement M1 pour l'attribut cible NOM_CINEMA (en utilisant les autres attributs de prédiction ARRONDISSEMENT , NOM_REALISATEUR et NOM_ACTEUR de la table ROLEFILMCINEMAB pour l'entrainement et les paramètres par défaut (Naive Bayes, sans matrice de coût et indication sur la distribution des classes). (Model->Classification->Build)
  3. Validez le modèle M1 (Model->Classification->Test"):

    1. avec les données de la table ROLEFILMCINEMAT (standard test).
    2. avec les données de la vue ROLEFILMCINEMAB (cross validation test)

    Explication Leave-one-out cross-validation

  4. Combien d'erreurs de classement ont été détectées pour chacun des deux tests?
  5. Calculez le score pour la classe NOM_CINEMA=Bastille et le modèle M1 dans la table ROLEFILMCINEMAT et affichez la courbe Lift (Model->Classification->Lift). Interprétez le résultat obtenu.

    Explications Lift

  6. Créez un modèle de classement M2 pour l'attribut cible NOM_CINEMA comme avant, mais en utilisant uniquement les attributs NOM_ACTEUR et NOM_REALISATEUR comme attributs de sélection.
  7. Validez le modèle M2 généré avec les données de la table ROLEFILMCINEMAT et la vue ROLEFILMCINEMA .
  8. Calculez le score pour la classe NOM_CINEMA=Bastille et le modèle M2 dans la table ROLEFILMCINEMAT et affichez la courbe Lift (Model->Classification->Lift). Interprétez le résultat obtenu.

Méthode "Adaptive Bayes Network"

  1. Créez un modèle de classement pour l'attribut cible NOM_REALISATEUR dans la vue ROLEFILMCINEMA en utilisant les attributs de prédiction NOM_CINEMA , ANNEE et NOM_ACTEUR et l'approche Adaptive Bayes Network

    1. singleFeatureBuild (affichez les règles de classement générées par la méthode singleFeatureBuild)
    2. multiFeatureBuild
    3. naiveBayesBuild
  2. Validez et comparez les modèle générés avec les données de la vue ROLEFILMCINEMA (validation croisée).