Método de agrupamiento: descripción, conceptos básicos, características de la aplicación

Tabla de contenido:

Método de agrupamiento: descripción, conceptos básicos, características de la aplicación
Método de agrupamiento: descripción, conceptos básicos, características de la aplicación
Anonim

El método de agrupamiento es la tarea de agrupar un conjunto de objetos de tal manera que en el mismo grupo sean más similares entre sí que con objetos de otras industrias. Es la tarea principal de la minería de datos y una técnica general de análisis estadístico utilizada en muchos campos, incluido el aprendizaje automático, el reconocimiento de patrones, el reconocimiento de imágenes, la recuperación de información, la compresión de datos y los gráficos por computadora.

Problema de optimización

utilizando el método de agrupación
utilizando el método de agrupación

El método de agrupación en clústeres en sí no es un algoritmo específico, sino una tarea general que debe resolverse. Esto se puede lograr con varios algoritmos que difieren significativamente en la comprensión de lo que constituye un grupo y cómo encontrarlo de manera eficiente. El uso del método de agrupamiento para la formación de metasujetos incluye el uso de un grupo condistancias pequeñas entre miembros, regiones densas de espacio, intervalos o ciertas distribuciones estadísticas. Por lo tanto, el agrupamiento se puede formular como un problema de optimización de objetivos múltiples.

El método adecuado y la configuración de los parámetros (incluidos elementos como la función de distancia a usar, el umbral de densidad o la cantidad de grupos esperados) dependen del conjunto de datos individual y el uso previsto de los resultados. El análisis como tal no es una tarea automática, sino un proceso iterativo de descubrimiento de conocimiento u optimización multiobjetivo interactiva. Este método de agrupación incluye intentos de prueba y error. A menudo es necesario modificar el preprocesamiento de datos y los parámetros del modelo hasta que el resultado alcance las propiedades deseadas.

Además del término "agrupación", hay una serie de palabras con significados similares, como la clasificación automática, la taxonomía numérica, la botriología y el análisis tipológico. Las diferencias sutiles a menudo se encuentran en el uso del método de agrupación para formar relaciones metasujeto. Mientras que en la extracción de datos interesan los grupos resultantes, en la clasificación automática ya es el poder discriminatorio el que realiza estas funciones.

El análisis de conglomerados se basó en numerosos trabajos de Kroeber en 1932. Fue introducido en la psicología por Zubin en 1938 y por Robert Tryon en 1939. Y estos trabajos han sido utilizados por Cattell desde 1943 para indicar la clasificación de los métodos de agrupamiento en teoría.

Plazo

usométodo
usométodo

El concepto de "clúster" no se puede definir con precisión. Esta es una de las razones por las que existen tantos métodos de agrupamiento. Hay un denominador común: un grupo de objetos de datos. Sin embargo, diferentes investigadores utilizan diferentes modelos. Y cada uno de estos usos de los métodos de agrupamiento implica datos diferentes. El concepto encontrado por varios algoritmos difiere significativamente en sus propiedades.

Usar el método de agrupamiento es la clave para comprender las diferencias entre las instrucciones. Los patrones de clúster típicos incluyen:

  • Centroide s. Esto es, por ejemplo, cuando el conglomerado de k-medias representa cada conglomerado con un vector medio.
  • Modelos de conectividad. Esto es, por ejemplo, el agrupamiento jerárquico, que construye modelos basados en la conectividad a distancia.
  • Modelo de distribución s. En este caso, los conglomerados se modelan utilizando el método de conglomerado para formar distribuciones estadísticas de metasujetos. Como la separación normal multivariante, que es aplicable al algoritmo de maximización de expectativas.
  • Modelo de densidad s. Estos son, por ejemplo, DBSCAN (algoritmo de agrupamiento espacial con ruido) y OPTICS (puntos de pedido para la detección de estructuras), que definen los agrupamientos como regiones densas conectadas en el espacio de datos.
  • Modelo subespacial c. En biclustering (también conocido como co-clustering o dos modos), los grupos se modelan con ambos elementos y con los atributos apropiados.
  • Modelo s. Algunos algoritmos norelación refinada para su método de agrupamiento para generar resultados de meta-sujetos y simplemente proporcionar agrupación de información.
  • Modelo basado en gráficos. Una camarilla, es decir, un subconjunto de nodos, de modo que cada dos conexiones en la parte del borde se puede considerar como un prototipo de la forma del clúster. El debilitamiento de la demanda total se conoce como cuasi-camarillas. Exactamente el mismo nombre se presenta en el algoritmo de agrupamiento HCS.
  • Modelos neurales s. La red no supervisada más conocida es el mapa autoorganizado. Y son estos modelos los que generalmente se pueden caracterizar como similares a uno o más de los métodos de agrupación anteriores para la formación de resultados de metasujetos. Incluye sistemas subespaciales cuando las redes neuronales implementan la forma necesaria de análisis de componentes principales o independientes.

Este término es, de hecho, un conjunto de dichos grupos, que normalmente contienen todos los objetos en el conjunto de métodos de agrupación de datos. Además, puede indicar la relación de los clústeres entre sí, como una jerarquía de sistemas integrados entre sí. La agrupación se puede dividir en los siguientes aspectos:

  • Método de agrupamiento de centroide rígido. Aquí, cada objeto pertenece a un grupo o está fuera de él.
  • Sistema suave o difuso. En este punto, cada objeto ya pertenece en cierta medida a cualquier clúster. También se le llama método de agrupación difusa de c-means.

Y también son posibles diferencias más sutiles. Por ejemplo:

  • Clúster de particionamiento estricto. Aquícada objeto pertenece exactamente a un grupo.
  • Clúster de particionamiento estricto con valores atípicos. En este caso, es posible que los objetos no pertenezcan a ningún clúster y se consideren innecesarios.
  • Aglomeración superpuesta (también alternativa, con vistas múltiples). Aquí, los objetos pueden pertenecer a más de una rama. Típicamente involucrando cúmulos sólidos.
  • Métodos de agrupamiento jerárquico. Los objetos que pertenecen a un grupo secundario también pertenecen al subsistema principal.
  • Formación del subespacio. Aunque son similares a los clústeres superpuestos, dentro de un sistema definido de forma única, los grupos mutuos no deben superponerse.

Instrucciones

usando el método de agrupamiento para formar
usando el método de agrupamiento para formar

Como se indicó anteriormente, los algoritmos de agrupamiento se pueden clasificar en función de su modelo de conglomerado. La siguiente revisión enumerará solo los ejemplos más destacados de estas instrucciones. Dado que puede haber más de 100 algoritmos publicados, no todos proporcionan modelos para sus grupos y, por lo tanto, no se pueden clasificar fácilmente.

No existe un algoritmo de agrupamiento objetivamente correcto. Pero, como se señaló anteriormente, la instrucción siempre está en el campo de visión del observador. El algoritmo de agrupamiento más adecuado para un problema en particular a menudo debe elegirse experimentalmente, a menos que exista una razón matemática para preferir un modelo sobre otro. Cabe señalar que un algoritmo diseñado para un solo tipo por lo general no funciona conun conjunto de datos que contiene un tema radicalmente diferente. Por ejemplo, k-means no puede encontrar grupos no convexos.

Clústeres basados en conexiones

método de agrupamiento
método de agrupamiento

Esta unión también es conocida por su nombre, el modelo jerárquico. Se basa en la típica idea de que los objetos están más conectados con las partes vecinas que con las que están mucho más lejos. Estos algoritmos conectan objetos, formando diferentes grupos, dependiendo de su distancia. Un grupo se puede describir principalmente por la distancia máxima que se necesita para conectar las diferentes partes del clúster. A todas las distancias posibles, se formarán otros grupos, que se pueden representar mediante un dendrograma. Esto explica de dónde viene el nombre común "agrupación jerárquica". Es decir, estos algoritmos no proporcionan una única partición del conjunto de datos, sino que proporcionan un amplio orden de autoridad. Es gracias a él que hay un drenaje entre sí a ciertas distancias. En un dendrograma, el eje y indica la distancia a la que se unen los grupos. Y los objetos están dispuestos a lo largo de la línea X para que los grupos no se mezclen.

La agrupación basada en conexiones es una familia completa de métodos que difieren en la forma en que calculan las distancias. Además de la elección habitual de las funciones de distancia, el usuario también debe decidir el criterio de conexión. Dado que un clúster consta de varios objetos, existen muchas opciones para calcularlo. Una opción popular se conoce como agrupación de palanca única, este es el métodoenlace completo, que contiene UPGMA o WPGMA (conjunto ponderado o no ponderado de pares con media aritmética, también conocido como agrupación de enlaces medios). Además, el sistema jerárquico puede ser aglomerante (comenzando con elementos individuales y combinándolos en grupos) o dividiendo (comenzando con un conjunto de datos completo y dividiéndolo en secciones).

Clústeres distribuidos

método de agrupamiento para formar
método de agrupamiento para formar

Estos modelos están más estrechamente relacionados con las estadísticas que se basan en divisiones. Los clústeres se pueden definir fácilmente como objetos que muy probablemente pertenecen a la misma distribución. Una característica útil de este enfoque es que es muy similar a la forma en que se crean los conjuntos de datos artificiales. Muestreando objetos aleatorios de una distribución.

Si bien la base teórica de estos métodos es excelente, sufren un problema clave, conocido como sobreajuste, a menos que se impongan límites a la complejidad del modelo. Una asociación más grande generalmente explicará mejor los datos, lo que dificultará la elección del método correcto.

Modelo de mezcla gaussiana

Este método utiliza todo tipo de algoritmos de maximización de expectativas. Aquí, el conjunto de datos generalmente se modela con un número fijo (para evitar anular) de distribuciones gaussianas que se inicializan aleatoriamente y cuyos parámetros se optimizan iterativamente para ajustarse mejor al conjunto de datos. Este sistema convergerá a un óptimo local. Es por eso que varias corridas pueden darresultados diferentes. Para obtener el agrupamiento más ajustado, las características a menudo se asignan a la distribución gaussiana a la que es más probable que pertenezcan. Y para grupos más suaves, esto no es necesario.

La agrupación en clústeres basada en la distribución crea modelos complejos que, en última instancia, pueden capturar la correlación y la dependencia entre atributos. Sin embargo, estos algoritmos imponen una carga adicional al usuario. Para muchos conjuntos de datos del mundo real, es posible que no haya un modelo matemático definido de manera concisa (por ejemplo, suponer que una distribución gaussiana es una suposición bastante sólida).

Clúster basado en la densidad

agrupamiento para formar
agrupamiento para formar

En este ejemplo, los grupos se definen básicamente como áreas con mayor impermeabilidad que el resto del conjunto de datos. Los objetos en estas partes raras, que son necesarias para separar todos los componentes, generalmente se consideran puntos de ruido y de borde.

El método de agrupamiento basado en densidad más popular es DBSCAN (algoritmo de agrupamiento de ruido espacial). A diferencia de muchos métodos más nuevos, tiene un componente de clúster bien definido llamado "accesibilidad de densidad". Similar a la agrupación en clústeres basada en enlaces, se basa en puntos de conexión dentro de ciertos umbrales de distancia. Sin embargo, este método recopila solo aquellos elementos que satisfacen el criterio de densidad. En la versión original, definida como el número mínimo de otros objetos en este radio, el grupo consta de todoselementos relacionados con la densidad (que pueden formar un grupo de forma libre, a diferencia de muchos otros métodos) y todos los objetos que están dentro del rango permitido.

Otra propiedad interesante de DBSCAN es que su complejidad es bastante baja: requiere un número lineal de consultas de rango en la base de datos. Y también es inusual que encontrará esencialmente los mismos resultados (esto es determinista para puntos centrales y de ruido, pero no para elementos de contorno) en cada ejecución. Por lo tanto, no hay necesidad de ejecutarlo varias veces.

La principal desventaja de DBSCAN y OPTICS es que esperan una caída en la densidad para detectar los límites de los grupos. Por ejemplo, en conjuntos de datos con distribuciones gaussianas superpuestas, un caso de uso común para objetos artificiales, los límites de clúster generados por estos algoritmos a menudo parecen arbitrarios. Esto sucede porque la densidad de grupos está disminuyendo continuamente. Y en un conjunto de datos de mezcla gaussiana, estos algoritmos casi siempre superan a métodos como el agrupamiento EM, que pueden modelar con precisión este tipo de sistemas.

El desplazamiento medio es un enfoque de agrupación en el que cada objeto se mueve al área más densa de la vecindad en función de una estimación de todo el núcleo. Al final, los objetos convergen a los máximos de impenetrabilidad local. Similar a la agrupación de k-medias, estos "atractores de densidad" pueden servir como representantes de un conjunto de datos. Pero el cambio mediopuede detectar grupos de formas arbitrarias similares a DBSCAN. Debido al costoso procedimiento iterativo y la estimación de densidad, el desplazamiento promedio suele ser más lento que DBSCAN o k-Means. Además, la aplicabilidad del algoritmo de cambio típico a datos de alta dimensión es difícil debido al comportamiento no uniforme de la estimación de la densidad del kernel, lo que conduce a una fragmentación excesiva de las colas de los grupos.

Clasificación

método de agrupamiento para la formación de metasujetos
método de agrupamiento para la formación de metasujetos

Verificar los resultados de la agrupación es tan difícil como la propia agrupación. Los enfoques populares incluyen la calificación "interna" (donde el sistema se reduce a una sola medida de calidad) y, por supuesto, la calificación "externa" (donde el agrupamiento se compara con una clasificación de "verdad básica" existente). Y la puntuación manual y la puntuación indirecta del experto humano se obtienen examinando la utilidad de la agrupación en clústeres en la aplicación prevista.

Las medidas de banderas internas tienen el problema de que representan características que en sí mismas pueden considerarse objetivos de agrupamiento. Por ejemplo, es posible agrupar datos dados por el coeficiente de Silhouette, excepto que no existe un algoritmo eficiente conocido para hacerlo. Usando una medida interna de este tipo para la evaluación, es mejor comparar la similitud de los problemas de optimización.

La marca exterior tiene problemas similares. Si existen tales etiquetas de "verdad fundamental", entonces no hay necesidad de agruparse. Y en las aplicaciones prácticas, por lo general no existen tales conceptos. Por otro lado, las etiquetas reflejan solo una posible partición del conjunto de datos, lo que no significaque no hay otro agrupamiento (quizás incluso mejor).

Así que ninguno de estos enfoques puede juzgar en última instancia la calidad real. Pero esto requiere una evaluación humana, que es muy subjetiva. Sin embargo, dichas estadísticas pueden ser informativas para identificar clústeres defectuosos. Pero uno no debe descartar la evaluación subjetiva de una persona.

Marca interior

Cuando el resultado de una agrupación se evalúa en función de los datos que se han agrupado, esto se conoce como este término. Estos métodos generalmente asignan el mejor resultado a un algoritmo que crea grupos con alta similitud dentro y baja entre grupos. Una de las desventajas de utilizar criterios internos en la evaluación de conglomerados es que las puntuaciones altas no conducen necesariamente a aplicaciones eficaces de recuperación de información. Además, esta puntuación está sesgada hacia algoritmos que usan el mismo modelo. Por ejemplo, el agrupamiento de k-medias optimiza naturalmente las distancias de las entidades, y es probable que un criterio interno basado en él sobreestime el agrupamiento resultante.

Por lo tanto, estas medidas de evaluación son las más adecuadas para tener una idea de las situaciones en las que un algoritmo funciona mejor que otro. Pero esto no quiere decir que cada información dé resultados más fiables que otras. El período de validez medido por dicho índice depende de la afirmación de que la estructura existe en el conjunto de datos. Un algoritmo desarrollado para algunos tipos no tiene posibilidades si el conjunto contiene radicalmentecomposición diferente o si la evaluación mide criterios diferentes. Por ejemplo, el agrupamiento de k-medias solo puede encontrar grupos convexos, y muchos índices de puntaje asumen el mismo formato. En un conjunto de datos con modelos no convexos, no es apropiado utilizar k-medias y criterios de evaluación típicos.

Evaluación externa

Con este tipo de agrupación, los resultados de la agrupación se evalúan en función de los datos que no se utilizaron para la agrupación. Es decir, como etiquetas de clase conocidas y pruebas externas. Estas preguntas consisten en un conjunto de elementos preclasificados y, a menudo, son creadas por expertos (humanos). Como tal, los kits de referencia pueden verse como el estándar de oro para la evaluación. Estos tipos de métodos de puntuación miden qué tan cerca está el agrupamiento de las clases de referencia dadas. Sin embargo, recientemente se ha discutido si esto es adecuado para datos reales o solo para conjuntos sintéticos con verdad de campo real. Dado que las clases pueden contener una estructura interna, y los atributos existentes pueden no permitir la separación de grupos. Además, desde el punto de vista del descubrimiento de conocimiento, la reproducción de hechos conocidos puede no producir necesariamente el resultado esperado. En un escenario especial de agrupamiento restringido donde la metainformación (como las etiquetas de clase) ya se usa en el proceso de agrupamiento, no es trivial retener toda la información con fines de evaluación.

Ahora está claro qué no se aplica a los métodos de agrupamiento y qué modelos se utilizan para estos fines.

Recomendado: