Analizador Numérico

Métodos de agrupamiento

Clustering

Los métodos de agrupamiento o clustering (arracimamiento en algunas traducciones) constituyen el ejemplo por antonomasia del aprendizaje no supervisado. En el aprendizaje supervisado, un programa aprende a clasificar objetos basándose en etiquetados proporcionados por un profesor. En los métodos de agrupamiento no se suministran los datos etiquetados: el programa debe descubrir por sí mismo las clases naturales existentes.

Por ejemplo, el programa AUTOCLASS (Cheeseman, Self, Kelly, Taylor, Freeman y Stutz, "Bayesian Classification", Proceedings AAAI88, 1988) usa razonamiento bayesiano para, dado un conjunto de datos de entrenamiento, sugerir un conjunto de clases plausible. Este programa encontró nuevas clases significativas de estrellas a partir de sus datos del espectro infrarrojo, lo que puede considerarse ejemplo de descubrimiento por parte de una máquina (los hechos descubiertos eran desconocidos para los astrónomos).

Las funciones de densidad de probabilidad suelen tener una moda o un máximo en una región; es decir, las observaciones tienden a agruparse en torno a una región del espacio de patrones cercana a la moda. Las técnicas de agrupamiento analizan el conjunto de observaciones disponibles para determinar la tendencia de los patrones a agruparse. Estas técnicas permiten realizar una clasificación asignando cada observación a un agrupamiento [cluster], de forma que cada agrupamiento sea más o menos homogéneo y diferenciable de los demás.

Los agrupamientos naturales obtenidos mediante una técnica de agrupamiento mediante similitud resultan muy útiles a la hora de construir clasificadores cuando no están bien definidas las clases (no existe un conocimiento suficiente de las clases en que se pueden distribuir las observaciones), cuando se desea analiza un gran conjunto de datos ("divide y vencerás") o, simplemente, cuando existiendo un conocimiento completo de las clases se desea comprobar la validez del entrenamiento realizado y del conjunto de variables escogido.

Los métodos de agrupamiento asocian un patrón a un agrupamiento siguiendo algún criterio de similaridad. Algunas medidas de disimilaridad habituales son la distancia euclídea, la distancia euclídea normalizada, la distancia euclídea ponderada, la distancia de Mahalanobis... Las medidas de disimilaridad deben ser aplicables entre pares de patrones, entre un patrón y un agrupamiento y, finalmente, entre pares de agrupamientos. En el paquete rf.distance se encuentran implementadas las distintas medidas de distancia citadas.

La agrupamientos detectados dependen del algoritmo empleado, del valor dado a sus parámetros, de los datos utilizados y de la medida de similaridad/disimilaridad adoptada.

Se han propuesto cientos de algoritmos de agrupamiento más o menos específicos. Según se use o no una función criterio se distinguen los algoritmos directos o constructivos (basados en aproximaciones heurísticas) de los algoritmos indirectos o por optimización.

ALGORITMOS DISPONIBLES

Algoritmo adaptativo

Algoritmo de Batchelor y Wilkins

Algoritmo de las K Medias

Algoritmo GRASP

Algoritmo secuencial

ISODATA

Matriz de similaridad