Data Mining
&
Knowledge Discovery in Databases (KDD)


Materias relacionadas


Los aspectos abarcados por el proceso de KDD incluyen desde el almacenamiento eficiente de los datos hasta la visualización de los resultados. Es esencial que los algoritmos empleados en Data Mining sean eficientes, escalables y robustos a la hora de manipular grandes cantidades de información con ruido.

Estadística

Las técnicas estadísticas son fundamentales a la hora de validar hipótesis y analizar datos, por lo cual la Estadística desempeña un papel muy importante en KDD. La Estadística proporciona herramientas para cuantificar adecuadamente la incertidumbre resultante de la inferencia de patrones a partir de datos particulares. Las herramientas de KDD pretenden automatizar (hasta donde se pueda) el proceso completo de análisis de datos (incluyendo la selección de hipótesis).

Ingeniería del conocimiento:
Modelos de representación del conocimiento

Algunos de los modelos de representación del conocimiento utilizados en técnicas de Data Mining son los árboles de decisión, las reglas de producción o las redes bayesianas. El modelo escogido determina la flexibilidad de la representación y la facilidad con la que una persona pueda interpretar el conocimiento obtenido. Los modelos más complejos pueden adaptarse mejor a los datos aunque suelen ser más difíciles de interpretar, por lo que en la práctica muchas veces se utilizan modelos simplificados.

Las técnicas para el manejo de la incertidumbre se hallan asociadas a los modelos de representación del conocimiento y son esenciales en KDD, ya que los datos suelen incluir errores (ruido) y ser incompletos.

Bases de datos

"I never waste memory on things that can easily be stored and retrieved from elsewhere"
Albert Einstein, 1879-1955

Habitualmente, los algoritmos empleados en Inteligencia Artificial (en Machine Learning para ser más concretos) y en reconocimiento de patrones presuponen que los datos sobre los que se aplican han de cargarse en la memoria principal del ordenador. Cuando tenemos tantos datos que no podemos cargarlos en memoria no nos queda más remedio que recurrir a técnicas empleadas en bases de datos, otro campo fundamental para las investigaciones en Data Mining.