Analizador Numérico

Ficheros de configuración

Los ficheros de configuración CFG sirven para especificar toda aquella información acerca de los datos (metainformación para ser precisos) que permita al Analizador Numérico acceder e interpretar adecuadamente los mismos.

Estos ficheros poseen una sintaxis similar a la de los ficheros .INI de Windows. Cada sección viene encabezada por una línea que puede comenzar con un corchete [ como los ficheros INI de Windows o con una almohadilla # (algo bastante más común en otros sistemas operativos, p.ej. Linux).

Las distintas secciones de un fichero de configuración pueden estar desordenadas, ya que antes de interpretarse se carga completo en memoria. Además, se pueden incluir tantos comentarios como se desee en líneas que comiencen con un punto y coma (;).

Una vez comentada la sintaxis de estos ficheros podemos pasar a analizar las secciones que nos encontraremos. Algunas de ellas son comunes para todos los formatos de datos mientras que otras son específicas de un determinado tipo.

Secciones comunes

La sección [DESCRIPTION] puede incluir una descripción general de la base de datos a la que hace referencia el fichero de configuración. Esta sección puede contener varias líneas, la primera de las cuales será utilizada por el Analizador Numérico como título de la ventana principal (aquélla que contiene el menú con todos los algoritmos aplicables).

La sección [FORMAT] indica el tipo de base de datos a la que se accede. Los valores permitidos para esta sección son ASCII (para ficheros ASCII como los empleados en C4.5 o LVQ_PAK), IMAGE (si los datos vienen en un conjunto de imágenes RAW) y JDBC (cuando se ha de acceder a los datos estableciendo una conexión remota con un servidor de bases de datos).

La sección [ATTRIBUTES] debe contener una lista de los distintos componentes de los patrones. Se ha de especificar un identificador por línea. Este identificador ha de coincidir con el nombre del fichero que contiene la imagen correspondiente al atributo cuando los datos están en formato IMAGE. En el caso de que los datos estén almacenados en una base de datos, los identificadores deben coincidir con campos de las tablas almacenadas en el servidor.

La sección [CLASSIFIER] incluye el identificador del atributo mediante el cual se clasifican los patrones. Esta sección es opcional. Obviamente, si no se incluye, no se podrán aplicar algoritmos de clasificación, edición y condensado al conjunto de datos sobre el que estemos trabajando.

Por último, la sección [CLASSES] sirve para enumerar las distintas clases en que se agrupan los patrones. Igual que la sección anterior, también es opcional.

Formato ASCII

Para este formato se debe especificar, al menos, el fichero que contiene los datos en la sección [DATA FILE]. Internamente el programa dividirá aleatoriamente estos datos en dos subconjuntos, un conjunto de aprendizaje y un conjunto de prueba aproximadamente formado por el 30% de las muestras disponibles.

Existe la posibilidad de fijar de antemano los conjuntos de entrenamiento y prueba utilizando las secciones [LEARNING FILE] y [TEST FILE], que deben contener los nombres de los ficheros donde se incluyan los datos de aprendizaje y los datos de prueba, respectivamente.

Formato IMAGE

Cuando los datos se encuentran almacenados como imágenes en formato RAW, se han de indicar obligatoriamente las dimensiones de las imágenes haciendo uso de las secciones habilitadas para ello: [WIDTH] y [HEIGHT].

Además se han de especificar los ficheros (también imágenes en el mismo formato) en los que se incluyen las etiquetas de los patrones: [TRAINING FILE] para la imagen que contiene todas los patrones etiquetados, [LEARNING FILE] para los patrones etiquetados utilizados en la fase de aprendizaje y [TEST FILE] para los empleados en la fase de evaluación de los clasificadores construidos.

Formato JDBC

Cuando para acceder a los datos se ha de establecer una conexión JDBC se han de especificar los siguientes parámetros

[JDBC DRIVER]: El controlador JDBC del servidor al que estemos accediendo.
[URL]: La dirección de la base de datos a la que se accede. Esta dirección tendrá generalmente el formato jdbc:protocolo:subprotocolo:@servidor
[USER]: El identificador del usuario en el servidor.
[PASSWORD]: La clave del usuario en el servidor.
[TABLE]: El identificador de la tabla que contiene los datos. Recordemos que en [ATTRIBUTES] y [CLASSIFIER] se han de listar los campos de la tabla que se emplearán en el análisis de los datos.