ODMiner, LesTme, Accueil


Classification des données (Clustering)

Pour la classification des données nous allons utiliser la table MINER.PERFORMANCES (schéma MINER) qui stocke de caractéristiques de performance de 209 (vieux) processeurs. La signification des attributs est décrite dans SchemaPerformances.

Avant de faire la classification, nous allons diviser la table MINER.PERFORMANCES en deux et extraire une table de pour la construction du modèle et une table de test. (Data->Transform->Split). Le résultat de cette transformation sont deux tables PERFORMANCESB et PERFORMANCEST dans votre schema BDWADMxx.

Exercices:

  1. K-means :

    1. Appliquez l'algorithme de classification K-means à la table PERFORMANCESB pour générer un modèle de classification (Model->Clustering->Build). Vous pouvez utiliser les paramètres par défaut ou tester avec vos propres paramètres.
    2. Comparez les histogrammes des clusters générés (bouton Detail) et essayez de résumer les différences entre eux.
    3. Essayez de donner un nom significatif à chaque cluster généré (eg. cluster 1: machines peu de mémoire, faible performance, ...).
    4. Appliquez le modèle construit à la table PERFORMANCEST (Model->Clustering->Apply) et interprétez le résultat.
  2. O-Cluster : O-cluster (Orthogonal partitioning Clustering, pdf) est un algorithme de classification propriétaire d'Oracle fondé sur des fonctions de densité de valeurs (histogrammes). Il nécessite pas la définition d'une mesure de distance (comme c'est le cas pour k-means) et fonctionne avec des attributs numériques et catégoriels. La densité des clusters générés peut être contrôlée par un facteur de sensibilité (0 = densité supérieure à la densité qui correspond à la distribution uniforme de toutes valeurs; 1 = pas de contrôle de densité).

    1. Appliquez l'algorithme de classification O-cluster à la table PERFORMANCESB pour générer un modèle de classification (Model->Clustering->Build). Vous pouvez utiliser les paramètres de sensibilité par défaut.
    2. Vérifiez le comportement de l'algorithme en changeant la sensibilité.
    3. Étudiez les clusters générés (Détail) et essayez de résumer les caractéristiques de chaque cluster.
    4. Quel attribut est le plus "discriminant" entre les différents cluster générés?
    5. Appliquez le modèle construit à la table PERFORMANCEST (Model->Clustering->Apply) et étudiez le résultat.
  3. Comparez le résultat avec les clusters obtenus par k-means :

    1. Générez des modèle de classification avec O-cluster et k-means avec des sous-ensembles d'attributs (eg. MMAX et ERP) et comparez les résultats.
    2. Effectuez le même type d'analyses avec des tables du schéma TPCH (PART, etc..). N'oubliez pas de découper les tables en sous-tables pour l'apprentissage et le test.

Exercice avec des données Open Data:

  1. Statistiques sur les accidents de la route :

    1. Appliquez les algorithmes k-Means et O-cluster aux données dans la table MINER.Accidents. Choisissez bien les attributs utiles pour faire le clustering.
    2. Les données dans cette table proviennent du site http://www.data.gouv.fr
    3. Page http://www.data.gouv.fr/donnees/view/Informations-sur-la-localisation-des-accidents-corporels--de-la-circulation-sur-5-ann%C3%A9es---France-M%C3%A9-30379821?xtmc=accidents&xtcr=3?
    4. Explication des attributs de la table Miner.ACCIDENTS