Datos para la Minería de Datos
Este elemento es una ampliación de los cursos y guías de Lawi. Ofrece hechos, comentarios y análisis sobre este tema. [aioseo_breadcrumbs]
Datos para la Minería de Datos
Este texto introduce la formulación estándar para la entrada de datos en los algoritmos de minería de datos que se asumirán a lo largo de buena prte de esta plataforma. A continuación, se distingue entre los diferentes tipos de variables y se examinan cuestiones relativas a la preparación de los datos antes de su utilización, en particular la presencia de valores de datos que faltan y el ruido. Se presenta el Repositorio de la UCI de conjuntos de datos.
Los datos para la extracción de datos se presentan en muchas formas: desde archivos informáticos tecleados por operadores humanos, información comercial en SQL o algún otro formato estándar de base de datos, información registrada automáticamente por equipos como dispositivos de registro de fallas, hasta corrientes de datos binarios transmitidos desde satélites. Para los propósitos de la minería de datos asumiremos que los datos toman una forma estándar particular que se describe en la siguiente sección. (Tal vez sea de interés más investigación sobre el concepto). Examinaremos algunos de los problemas prácticos de la preparación de datos en la sección al final.
Formulación estándar
Asumiremos que para cualquier aplicación de minería de datos tenemos un universo de objetos que son de interés. Este término bastante grandioso a menudo se refiere a una colección de personas, tal vez todos los seres humanos vivos o muertos, o posiblemente todos los pacientes de un hospital, pero también puede aplicarse a, digamos, todos los perros en Inglaterra, o a objetos inanimados como todos los viajes en tren de Londres a Birmingham, todas las rocas de la luna o todas las páginas almacenadas en la World Wide Web.
El universo de objetos es normalmente muy grande y solo tenemos una pequeña parte de él. Normalmente queremos extraer información de los datos disponibles que esperamos que sea aplicable al gran volumen de datos que aún no hemos visto.
Cada objeto está descrito por un número de variables que corresponden a sus propiedades.Entre las Líneas En la minería de datos las variables se suelen llamar atributos. Utilizaremos ambos términos en esta plataforma.
El conjunto de valores de las variables correspondientes a cada uno de los objetos se denomina registro o (más comúnmente) instancia. El conjunto completo de datos de que disponemos para una aplicación se llama conjunto de datos. Un conjunto de datos a menudo se representa como una tabla, con cada fila representando una instancia. Cada columna contiene el valor de una de las variables (atributos) de cada una de las instancias.
Tipos de variables
En general, hay muchos tipos de variables que pueden utilizarse para medir las propiedades de un objeto. La falta de comprensión de las diferencias entre los diversos tipos puede dar lugar a problemas con cualquier forma de análisis de datos. Se pueden distinguir al menos seis tipos principales de variables.
Variables nominales
Una variable utilizada para poner los objetos en categorías, por ejemplo, el nombre o el color de un objeto. Una variable nominal puede tener forma numérica, pero los valores numéricos no tienen interpretación matemática. Por ejemplo, podríamos etiquetar a 10 personas como números
1,2,3,…,10
1,2,3,…,10
pero cualquier aritmética con tales valores, por ejemplo.
1+2=3
1+2=3
no tendría sentido. Son simplemente etiquetas. Una clasificación puede ser vista como una variable nominal que ha sido designada como de particular importancia.
Variables binarias
Una variable binaria es un caso especial de una variable nominal que toma solo dos valores posibles: verdadero o falso, 1 o 0, etc.
Variables ordinales
Las variables ordinales son similares a las variables nominales, salvo que una variable ordinal tiene valores que pueden ordenarse en un orden significativo, por ejemplo, pequeña, mediana, grande.
Variables enteras
Las variables enteras son aquellas que toman valores que son enteros genuinos, por ejemplo “número de hijos”. A diferencia de las variables nominales que son numéricas en forma, la aritmética con variables enteras es significativa (1 niño + 2 niños = 3 niños, etc.).
Variables a escala de intervalo
Las variables de escala de intervalo son variables que toman valores numéricos que se miden a intervalos iguales desde un punto cero o un origen.
Puntualización
Sin embargo, el origen no implica una verdadera ausencia de la característica medida. Dos ejemplos bien conocidos de variables de escala de intervalo son las escalas de temperatura Fahrenheit y Celsius. Decir que una temperatura medida en grados centígrados es mayor que otra o mayor que un valor constante como 25 es claramente significativo, pero decir que una temperatura medida en grados centígrados es el doble de otra no tiene sentido. Es cierto que una temperatura de 20 grados está dos veces más lejos del valor cero que 10 grados, pero el valor cero ha sido seleccionado arbitrariamente y no implica “ausencia de temperatura”. Si las temperaturas se convierten a una escala equivalente, digamos grados Fahrenheit, la relación “dos veces” ya no se aplicará.
Variables a escala de proporción
Las variables de escala de relación son similares a las variables de escala de intervalo, salvo que el punto cero refleja la ausencia de la característica medida, por ejemplo la temperatura Kelvin y el peso molecular.Entre las Líneas En el primer caso, el valor cero corresponde a la temperatura más baja posible “cero absoluto”, de modo que una temperatura de 20 grados Kelvin es el doble de una de 10 grados Kelvin. Un peso de 10 kg es el doble del de 5 kg, un precio de 100 dólares es el doble del precio de 50 dólares, etc.
Atributos categóricos y continuos
Aunque la distinción entre las diferentes categorías de variables puede ser importante en algunos casos, muchos sistemas prácticos de extracción de datos dividen los atributos en solo dos tipos:
- categóricos correspondientes a variables nominales, binarias y ordinales
- continuo que corresponde a variables enteras, de escala de intervalo y de escala de proporción.
Esta convención es seguida en varias obras. Para muchas aplicaciones es útil tener una tercera categoría de atributo, el atributo “ignorar”, que corresponde a variables que no son significativas para la aplicación, por ejemplo el nombre de un paciente en un hospital o el número de serie de una instancia, pero que no deseamos (o no podemos) eliminar del conjunto de datos.
Es importante elegir métodos que sean apropiados para los tipos de variables almacenadas para una aplicación concreta. Los métodos descritos aquí, en general, son aplicables a los atributos categóricos y continuos definidos anteriormente. Hay otros tipos de variables a los que no serían aplicables sin modificación, por ejemplo, cualquier variable que se mida en una escala logarítmica. Dos ejemplos de escalas logarítmicas son la escala de Richter para medir los terremotos (un terremoto de magnitud 6 es 10 veces más severo que uno de magnitud 5, 100 veces más severo que uno de magnitud 4, etc.) y la escala de magnitud estelar para medir el brillo de las estrellas vistas por un observador en la Tierra.
Preparación de datos
Introducción
Aunque esta entrada trata de la minería de datos (y también esta) y no de la preparación de datos, algunos comentarios generales sobre esta última pueden ser útiles.
Para muchas aplicaciones los datos pueden extraerse simplemente de una base de datos en la forma descrita en la sección 2.1, tal vez utilizando un método de acceso estándar como el ODBC.
Puntualización
Sin embargo, para algunas aplicaciones la tarea más difícil puede ser conseguir que los datos se presenten en un formulario estándar en el que puedan ser analizados. Por ejemplo, tal vez haya que extraer los valores de los datos de la salida textual generada por un sistema de registro de fallas o (en una aplicación de análisis de delitos) extraerlos de las transcripciones de las entrevistas con los testigos. El esfuerzo necesario para ello puede ser considerable.
Limpieza de datos
Incluso cuando los datos están en la forma estándar, no se puede asumir que estén libres de errores.Entre las Líneas En los conjuntos de datos del mundo real pueden registrarse valores erróneos por diversas razones, entre ellas, errores de medición, juicios subjetivos y mal funcionamiento o uso indebido del equipo de registro automático.
Los valores erróneos pueden dividirse en los que son valores posibles del atributo y los que no lo son. Aunque el uso del término “ruido” varía, en este libro tomaremos un valor de ruido para significar uno que es válido para el conjunto de datos, pero que está registrado incorrectamente. Por ejemplo, el número 69,72 puede introducirse accidentalmente como 6,972, o un valor de atributo categórico como el marrón puede registrarse accidentalmente como otro de los valores posibles, como el azul. Este tipo de ruido es un problema perpetuo con los datos del mundo real.
Un problema mucho menor surge con los valores de ruido que no son válidos para el conjunto de datos, como 69,7X para 6.972 o bbrown para el marrón. Consideraremos que estos son valores inválidos, no ruido. Un valor inválido puede ser fácilmente detectado y corregido o rechazado.
Es difícil ver incluso errores muy “obvios” en los valores de una variable cuando están “enterrados” entre, por ejemplo, otros 100.000 valores. Al intentar “limpiar” los datos, es útil disponer de una gama de herramientas de software, especialmente para dar una impresión visual general de los datos, cuando pueden destacarse algunos valores anómalos o concentraciones inesperadas de valores.
Puntualización
Sin embargo, en ausencia de un software especial, incluso algunos análisis muy básicos de los valores de las variables pueden ser útiles. La simple clasificación de los valores en orden ascendente (que en el caso de conjuntos de datos bastante pequeños puede realizarse utilizando solo una hoja de cálculo estándar) puede revelar resultados inesperados. Por ejemplo
Una variable numérica solo puede tomar seis valores diferentes, todos ellos ampliamente separados. Probablemente sería mejor tratarla como una variable categórica en lugar de una continua.
Todos los valores de una variable pueden ser idénticos. La variable debe ser tratada como un atributo de “ignorar”.
Todos los valores de una variable excepto uno pueden ser idénticos. Es necesario entonces decidir si el único valor diferente es un error o un valor significativamente diferente.Entre las Líneas En este último caso, la variable debe tratarse como un atributo categórico con solo dos valores.
Puede haber algunos valores que estén fuera del rango normal de la variable. Por ejemplo, los valores de un atributo continuo pueden estar todos en el rango de 200 a 5000, excepto los tres valores más altos que son 22654.8, 38597 y 44625.7. Si los valores de los datos se introdujeron a mano, una suposición razonable es que el primero y el tercero de estos valores anormales resultaron de pulsar dos veces la tecla inicial por accidente y el segundo es el resultado de dejar fuera el punto decimal. Si los datos se registraron automáticamente puede ser que el equipo haya funcionado mal. Puede que no sea así, pero los valores deben ser investigados.
Podemos observar que algunos valores ocurren un número anormalmente grande de veces. Por ejemplo, si analizamos los datos de los usuarios que se registraron en un servicio de la web rellenando un formulario en línea, podemos observar que la parte de “país” de sus direcciones tomó el valor “Albania” en el 10% de los casos. Puede ser que hayamos encontrado un servicio que sea particularmente atractivo para los habitantes de ese país. Otra posibilidad es que los usuarios que se registraron o bien no eligieron entre las opciones del campo de país, lo que hizo que se tomara un valor por defecto (no muy sensato), o bien no quisieron proporcionar los datos de su país y simplemente seleccionaron el primer valor de una lista de opciones.Entre las Líneas En cualquiera de los dos casos parece probable que el resto de los datos de dirección proporcionados para esos usuarios también sean sospechosos.
Si analizamos los resultados de una encuesta en línea reunida en 2002, podemos observar que la edad registrada para una elevada proporción de los encuestados era de 72 años. Esto parece improbable, especialmente si la encuesta fue de satisfacción de los estudiantes, por ejemplo. Una posible interpretación de esto es que la encuesta tenía un campo de “fecha de nacimiento”, con subcampos para el día, mes y año y que muchos de los encuestados no se molestaron en anular los valores por defecto de 01 (día), 01 (mes) y 1930 (año). Un programa mal diseñado convirtió entonces la fecha de nacimiento en una edad de 72 años antes de almacenarla en la base de datos.
Es importante emitir una palabra de advertencia en este punto. Hay que tener cuidado cuando se trata de valores anómalos como 22654,8, 38597 y 44625,7 en uno de los ejemplos anteriores. Pueden ser simplemente errores como se sugiere. También pueden ser valores anómalos, es decir, valores genuinos que son significativamente diferentes de los demás. El reconocimiento de los valores atípicos y su importancia puede ser la clave de los principales descubrimientos, especialmente en campos como la medicina y la física, por lo que debemos ser cuidadosos antes de descartarlos simplemente o ajustarlos de nuevo a los valores “normales”.
Valores perdidos
En muchos conjuntos de datos del mundo real los valores de los datos no se registran para todos los atributos. Esto puede ocurrir simplemente porque hay algunos atributos que no son aplicables en algunos casos (por ejemplo, ciertos datos médicos pueden ser significativos solo para pacientes femeninos o pacientes mayores de cierta edad). El mejor enfoque en este caso puede consistir en dividir el conjunto de datos en dos (o más) partes, por ejemplo, tratando a los pacientes de sexo masculino y femenino por separado.
También puede ocurrir que haya valores de atributo que deban registrarse y que falten. Esto puede ocurrir por varias razones, por ejemplo
un mal funcionamiento del equipo utilizado para registrar los datos
un formulario de recopilación de datos al que se añadieron campos adicionales después de que se hubieran recogido algunos datos
información que no se pudo obtener, por ejemplo, sobre un paciente del hospital.
Hay varias estrategias posibles para tratar con los valores perdidos. Dos de las más utilizadas son las siguientes.
Descarte las instancias
Esta es la estrategia más simple: eliminar todos los casos en los que falta al menos un valor y utilizar el resto.
Esta estrategia es muy conservadora, y tiene la ventaja de evitar la introducción de errores en los datos. Su desventaja es que al desechar los datos se puede perjudicar la fiabilidad de los resultados derivados de los mismos. Aunque puede valer la pena intentarlo cuando la proporción de valores perdidos es pequeña, no se recomienda en general. Está claro que no es utilizable cuando todos o una alta proporción de todos los casos tienen valores faltantes.
Sustituir por el valor más frecuente/promedio
Una estrategia menos cautelosa consiste en estimar cada uno de los valores que faltan utilizando los valores que están presentes en el conjunto de datos.
Una forma sencilla pero eficaz de hacerlo para un atributo categórico es utilizar su valor más frecuente (no faltante). Esto es fácil de justificar si los valores de los atributos están muy desequilibrados. Por ejemplo, si el atributo X tiene posibles valores a, b y c que se dan en proporciones del 80%, 15% y 5% respectivamente, parece razonable estimar cualquier valor faltante del atributo X por el valor a. Si los valores están distribuidos más uniformemente, digamos en proporciones del 40%, 30% y 30%, la validez de este enfoque es mucho menos clara.
En el caso de los atributos continuos es probable que no se produzca ningún valor numérico específico más que un pequeño número de veces.Entre las Líneas En este caso la estimación utilizada es generalmente el valor medio.
La sustitución de un valor perdido por una estimación de su verdadero valor puede, por supuesto, introducir ruido en los datos, pero si la proporción de valores perdidos de una variable es pequeña, no es probable que esto tenga más que un pequeño efecto en los resultados derivados de los datos.
Puntualización
Sin embargo, es importante subrayar que si un valor de la variable no es significativo para un caso o conjunto de casos determinados, cualquier intento de sustituir los valores “perdidos” por una estimación es probable que dé lugar a resultados inválidos. Como muchos de los métodos de este libro, la estrategia de “sustituir por el valor más frecuente/promedio” debe utilizarse con cuidado.
Existen otros enfoques para tratar los valores perdidos, por ejemplo, utilizar los métodos de la “regla de asociación” para hacer una estimación más fiable de cada valor perdido.
Puntualización
Sin embargo, como suele ocurrir en este campo, no hay un método más fiable que todos los demás para todos los conjuntos de datos posibles y en la práctica hay pocas alternativas a la experimentación con una serie de estrategias alternativas para encontrar la que dé los mejores resultados para un conjunto de datos que se esté examinando.
Reducción del número de atributos
En algunos ámbitos de aplicación de la minería de datos, la disponibilidad de una capacidad de almacenamiento cada vez mayor a un precio unitario cada vez menor ha dado lugar a que se almacenen grandes cantidades de valores de atributo para cada caso, por ejemplo, información sobre todas las compras realizadas por un cliente del supermercado durante tres meses o una gran cantidad de información detallada sobre cada paciente de un hospital.Entre las Líneas En algunos conjuntos de datos puede haber un número de atributos sustancialmente mayor que en otros casos, tal vez hasta 10 o incluso 100 a uno.
Basado en la experiencia de varios autores, mis opiniones, perspectivas y recomendaciones se expresarán a continuación (o en otros lugares de esta plataforma, respecto a las características en 2026 o antes, y el futuro de esta cuestión):
Aunque es tentador almacenar cada vez más información sobre cada instancia (especialmente porque evita tomar decisiones difíciles sobre la información que realmente se necesita), corre el riesgo de ser contraproducente. Supongamos que tenemos 10.000 piezas de información sobre cada cliente del supermercado y queremos predecir qué clientes comprarán una nueva marca de comida para perros. El número de atributos de cualquier relevancia para esto es probablemente muy pequeño.Entre las Líneas En el mejor de los casos, los muchos atributos irrelevantes colocarán una sobrecarga innecesaria en cualquier algoritmo de minería de datos.Entre las Líneas En el peor de los casos, pueden hacer que el algoritmo dé malos resultados.
Por supuesto, los supermercados, hospitales y otros recolectores de datos responderán que no saben necesariamente lo que es relevante o que se reconocerá como relevante en el futuro. Es más seguro para ellos registrar todo que arriesgarse a tirar la información importante.
Aunque una mayor velocidad de procesamiento y una mayor memoria pueden hacer posible el procesamiento de un número cada vez mayor de atributos, se trata inevitablemente de una lucha perdida a largo plazo. Incluso si no fuera así, cuando el número de atributos se hace grande, siempre existe el riesgo de que los resultados obtenidos solo tengan una exactitud superficial y sean en realidad menos fiables que si solo se utilizara una pequeña proporción de los atributos – un caso de “más significa menos”.
Hay varias maneras de reducir el número de atributos (o “características”) antes de procesar un conjunto de datos. El término reducción de características o reducción de dimensiones se utiliza generalmente para este proceso.
El Repositorio UCI de conjuntos de datos
La mayoría de los conjuntos de datos comerciales utilizados por las empresas para la minería de datos no están disponibles para que otros los utilicen.
Puntualización
Sin embargo, hay una serie de “bibliotecas” de conjuntos de datos que están disponibles para ser descargados de la World Wide Web de forma gratuita por cualquier persona.
El más conocido de ellos es el “Repositorio” de conjuntos de datos mantenidos por la Universidad de California en Irvine, generalmente conocido como el “Repositorio de la UCI” y publicado en 1998. El URL del Repositorio es ics.uci.edu/~mlearn/MLRepository.html. Contiene más de 350 conjuntos de datos sobre temas tan diversos como la predicción de la edad del abulón a partir de mediciones físicas, la predicción de riesgos crediticios buenos y malos, la clasificación de pacientes con diversas afecciones médicas y el aprendizaje de conceptos a partir de los datos de los sensores de un robot móvil. Algunos conjuntos de datos están completos, es decir, incluyen todos los casos posibles, pero la mayoría son muestras relativamente pequeñas de un número mucho mayor de casos posibles. Se incluyen conjuntos de datos con valores perdidos y ruido.
El sitio de la UCI también tiene enlaces a otros repositorios tanto de conjuntos de datos como de programas, mantenidos por una variedad de organizaciones como el Centro Nacional de Ciencias Espaciales (EE.UU.), la Oficina de Censos de EE.UU. y la Universidad de Toronto.
📬Si este tipo de historias es justo lo que buscas, y quieres recibir actualizaciones y mucho contenido que no creemos encuentres en otro lugar, suscríbete a este substack. Es gratis, y puedes cancelar tu suscripción cuando quieras: Qué piensas de este contenido? Estamos muy interesados en conocer tu opinión sobre este texto, para mejorar nuestras publicaciones. Por favor, comparte tus sugerencias en los comentarios. Revisaremos cada uno, y los tendremos en cuenta para ofrecer una mejor experiencia.Los conjuntos de datos en el Repositorio de la UCI fueron recopilados principalmente para permitir que los algoritmos de minería de datos se comparen en una gama estándar de conjuntos de datos. Hay muchos algoritmos nuevos publicados cada año y es una práctica estándar declarar su rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) en algunos de los conjuntos de datos más conocidos en el Repositorio de la UCI.
La disponibilidad de conjuntos de datos estándar también es muy útil para los nuevos usuarios de los paquetes de minería de datos que pueden familiarizarse utilizando conjuntos de datos con los resultados de rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) publicados antes de aplicar las facilidades a sus propios conjuntos de datos.
En los últimos años se ha puesto de manifiesto la posible debilidad de establecer un conjunto de conjuntos de datos estándar tan ampliamente utilizado.Entre las Líneas En la gran mayoría de los casos, los conjuntos de datos del Depósito de la UCI dan buenos resultados cuando se procesan mediante algoritmos estándar del tipo descrito en este libro. Los conjuntos de datos que conducen a resultados pobres tienden a estar asociados con proyectos no exitosos y por lo tanto pueden no ser agregados al Repositorio. El logro de buenos resultados con conjuntos de datos seleccionados del Repositorio no es garantía del éxito de un método con nuevos datos, pero la experimentación con tales conjuntos de datos puede ser un paso valioso en el desarrollo de nuevos métodos.
Un desarrollo relativamente reciente es la creación del “Archivo de Descubrimiento de Conocimiento en Bases de Datos” de la UCI en kdd.ics.uci.edu. Este contiene una gama de grandes y complejos conjuntos de datos como un desafío para la comunidad de investigación de la minería de datos para ampliar sus algoritmos a medida que el tamaño de los conjuntos de datos almacenados, especialmente los comerciales, aumenta inexorablemente.
Datos verificados por: LI
▷ Esperamos que haya sido de utilidad. Si conoces a alguien que pueda estar interesado en este tema, por favor comparte con él/ella este contenido. Es la mejor forma de ayudar al Proyecto Lawi.