none
Decision Tree - Différences de fonctionnement RRS feed

  • Question

  • Bonjour,


    Je relève des différences de résultats sur l'algorithme DT que j'utilise le plugin DM EXCEL et que je tente d'exploiter par des requetes DMX.


    D'un coté, j'ai dans EXCEL, un tableau de données sur lequel j'applique l'algo Decision Tree avec les paramètres par défaut.


    Sortie : Client

    Entrée : id, Client, Param1

    Taux de test : 15%

    Le résultat est un arbre avec 3 niveaux


     - Niveau 0  : (tout)

    Niveau 1 : Param1 > valeur 1  // Param 1 < valeur 1

    Niveau 2 : Param 1 < valeur 1 et Param1> valeur 2 // Param 1 < valeur 1 et Param1> valeur 2

    =======================

    A partir des mêmes données, quand je crée mes requêtes DMX pour arriver au même modèle, je crée le code :

    CREATE MINING STRUCTURE [Client]
    (
    [Id Key] TEXT KEY,
    [Client] TEXT DISCRETE,
    [Param1] LONG DISCRETE
    )
    WITH HOLDOUT (15 PERCENT);


    ALTER MINING STRUCTURE [Client]
    ADD MINING MODEL [DT_client]
    (
    [Id Key],
    [Client] PREDICT,
    [Param1]
    ) USING Microsoft_Decision_Trees (SCORE_METHOD=4, SPLIT_METHOD=3)
    WITH DRILLTHROUGH;


    INSERT INTO MINING STRUCTURE [Client]
    (
    [Id Key],
    [Client],
    [Param1]
    )
    OPENQUERY([DATACUBE_DM],
    'SELECT id, client, param1
      FROM [TABCLIENTS].[dbo].[clients]');

    Lorsque je lance le lance le tout, la construction se déroule bien mais lorsque je cherche a récupérer le résultat de l'analyse (via à un SELECT * FROM DT_client.CONTENT), je me rend compte qu'il n'a créé qu'un seul niveau TOUT et aucun enfant.

    Est-ce normal ?

    Pourquoi des résultats si différents avec le même algorithme (sachant que les résultats issues d'excel sont totalement fiables et exploitables) ?

    Qu'est-ce que je rate ?

    Merci d'avance

    cdt

    Ludo

    Info complémentaire :

    Info complémentaire, lorsque je demande les paramètres du modèle, il me retourne

    MINING_PARAMETERS
    COMPLEXITY_PENALTY=0.5,MINIMUM_SUPPORT=255,SCORE_METHOD=10,SPLIT_METHOD=10

    sachant que je ne trouve aucune info sur SCORE_METHOD=10,SPLIT_METHOD=10, qu'il ne s'agit pas des paramètres demandés et que si je demande le script du modèle dans l'explorateur, score method est bien annoncé à 4 et slipt méthod à 3 ...

    dimanche 7 avril 2013 21:31