Analizador Numérico



Clasificadores paramétricos



Existen muchas técnicas estadísticas aplicables a problemas de clasificación. Estas técnicas suelen ser paramétricas. Se asume la forma del modelo y, a partir de los datos de entrenamiento, se hallan los valores adecuados para los parámetros del modelo.

Por ejemplo, un clasificador lineal asume que la clasificación puede realizarse mediante una combinación lineal de los valores de los atributos y emplea la combinación lineal que mejor se adapte al conjunto de casos de entrenamiento a la hora de clasificar nuevos casos.

En determinadas circunstancias, un clasificador cuadrático puede obtener mejores resultados que un clasificador lineal simple. Sin embargo, el ADC [Análisis Discriminante Cuadrático] requiere muchas más muestras de entrenamiento que el ADL [Análisis Discriminante Lineal] para obtener resultados similares ya que es más sensible al número de muestras requeridas.

Pero no siempre es mejor un clasificador cuadrático. Para determinados conjuntos de datos el ADC ni siquiera se puede aplicar, como sucede con un conjunto estándar de datos de la ionosfera formado por 351 patrones de 34 atributos cada uno (John Hopkins University Ionosphere Database). En estos casos, no disponemos de suficientes muestras para estimar la matriz de covarianza de los datos adecuadamente (de hecho, para los datos de la ionosfera ni siquiera podemos calcularle su inversa).

Aunque en teoría el error de Bayes decrece conforme la dimensionalidad de los datos se incrementa, en la práctica disponemos de un conjunto fijo y finito de muestras para construir el clasificador (los estimadores están sesgados por las muestras disponibles). La bondad conseguida con un clasificador aumenta con la dimensionalidad de los datos hasta cierto punto, a partir del cual decrece conforme se incorporan nuevas variables (fenómeno de Hughes).

El problema anterior podría solucionarse consiguiendo más muestras de entrenamiento (lo cual no suele ser posible) o eligiendo un subespacio del espacio de patrones (usando técnicas de selección de características).