Numerical Cruncher



Clustering


Algoritmo de agrupamiento secuencial



La utilización del método de agrupamiento secuencial es algo más compleja que la de algoritmos como el K-Means o el de Batchelor y Wilkins. Igual que ellos, realiza cálculos sencillos, procesa los patrones secuencialmente y los resultados obtenidos depende del orden de presentación de los patrones (está sesgado por los primeros patrones).

Su funcionamiento puede ajustarse gracias a un amplio conjunto de parámetros. Los valores adecuados para los parámetros son difíciles de establecer a priori, por lo que se suele emplear un mecanismo de prueba y error.

Parámetros

Algoritmo de agrupamiento secuencial

El algoritmo selecciona arbitrariamente el centro del primer agrupamiento. Posteriormente procesa secuencialmente los demás patrones. Calcula la distancia del patrón actual al agrupamiento más cercano (a su centroide). Si ésta es menor o igual a R se asigna el patrón a su agrupamiento más cercano. En caso contrario, se crea un nuevo agrupamiento con el patrón actual.

Cada M patrones, se mezclan agrupamientos por cercanía (se mezclan dos agrupamientos si la distancia entre ellos es menor que C). Si, tras la mezcla por cercanía, quedan más agrupamientos que los deseados por el usuario (K), se mezclan los agrupamientos por tamaño (se mezclan los agrupamientos con menos del T% de M miembros con sus agrupamientos más cercanos). Si aún quedan demasiados agrupamientos, se mezclan los agrupamientos más cercanos hasta obtener el número deseado de agrupamientos K.

El proceso de mezcla nos asegura que al final obtenemos el número deseado de agrupamientos y no más (como suele suceder con el método adaptativo o el algoritmo de Batchelor y Wilkins).