none
Implementar el algoritmo de clústeres (segmentación) de Microsoft RRS feed

  • Pregunta

  • Hola.

    Alguien que me pueda ayudar con estas preguntas sobre de segmentación (Cluster) usando SSAS?

    Muchas gracias.

    A. En SqlServer versión 2014 corriendo sobre Windows 10 Pro,  Cual es el procedimiento estadístico en detalle que utiliza Sqlserver para la asignación de probabilidades a las variables cualitativas que se desean segmentar cuando se usa Kmedias y cuando se quiere usar KM?  Ejemplo, si se requiere segmentar usando la variable ocupación (ama de casa, minero, comerciante, agricultor,  administrador) :

    1. como es el proceso detallado que usa SQLSERVER para asignar probabilidades a estos datos para que puedan ser segmentados?. 
    2. cual es la formula especifica que utiliza SQLSERVER para ese proceso? 
    3. como puede replicarse ese resultado en una prueba de escritorio? 
    4. que justificación estadística tiene este mecanismo usado por SQLSERVER (ventajas y desventajas)
    B. En SqlServer versión 2014 corriendo sobre Windows 10 Pro, Cual es el procedimiento estadístico que utiliza para determinar que un punto pertenece a un cluster para Kmedias y EM.   
    1. Se entiende que en SQLSERVER 2014, en el caso de Kmedias se usa una medida de distancia y en EM se usa una medida de probabilidad. Esa apreciación se correcta? Que evidencia hay de tal afirmación?
    2. Como se pueden replicar los resultados de la asignación de acuerdo a la pregunta anterior en SQLSERVER para reproducir las medidas de distancia?
    C. En SqlServer versión 2014, porque razón al segmentar,  si se suman todas las poblaciones de un rango para una variable en todos los clusters, la probabilidad no suma 1?  Ejemplo, si  la variable ingreso para tres clusters
    cluster 1, ingreso 0 a 100 = probabilidad 4%, 
    cluster 2, ingreso de 100 a 200 = probabilidad 25%, 
    cluster 3, ingreso de 300 a 500 = probabilidad 25%.
    solo suma 49% porque no 1 ?
    D. Porque en una gráfica donde se relacionan los clusters , pueden presentarse clusters sobre los cuales no hay una linea entre un par de ellos, si se supone que es probabilistica? 
    1. Ejemplo, en el caso de la gráfica adjunta entre el cluster 13 y 14 no hay relación.  A que se debe? mutuamente excluyentes?
    2. Como se puede reproducir esa medición.?
    3. Como puede interpretarse en el caso de querer unir segmentos?
    4. COmo afecta esto la sugerencia automatica de SQLSERVER en cuanto a número de clusters?
    5. En la grafica, como se interpreta la variable DENSITY?, se supone que es la cantidad de puntos dentro del cluster? como se puede evidenciar?

    sábado, 21 de octubre de 2017 20:28