Minería de Datos
Este elemento es una ampliación de los cursos y guías de Lawi. Ofrece hechos, comentarios y análisis sobre este tema. [aioseo_breadcrumbs]
Minería de Datos
Aquí se ofrece un breve resumen del campo de la minería de datos. Los temas tratados son la explosión de datos, el proceso de descubrimiento de conocimientos, las aplicaciones de la minería de datos, los datos etiquetados y no etiquetados, el aprendizaje supervisado: clasificación y predicción numérica, y el aprendizaje no supervisado: reglas de asociación y agrupación.
La explosión de datos
Los sistemas informáticos modernos están acumulando datos a un ritmo casi inimaginable y de una gran variedad de fuentes: desde las máquinas de los puntos de venta en la calle principal hasta las máquinas que registran cada liquidación de cheques, retirada de efectivo de los bancos y transacciones con tarjetas de crédito, pasando por los satélites de observación de la Tierra en el espacio, y con un volumen cada vez mayor de información disponible en la Internet.
Algunos ejemplos servirán para dar una indicación de los volúmenes de datos involucrados (para cuando se lea esto, algunas de las cifras habrán aumentado considerablemente):
- Los actuales satélites de observación de la Tierra de la NASA generan un terabyte de datos cada día. Esto es más que la cantidad total de datos transmitidos por todos los satélites de observación anteriores.
- El proyecto del Genoma Humano está almacenando miles de bytes para cada una de varios miles de millones de bases genéticas.
- Muchas empresas mantienen grandes almacenes de datos de las transacciones de los clientes. Un almacén de datos bastante pequeño podría contener más de cien millones de transacciones.
- Hay grandes cantidades de datos registrados cada día en dispositivos de grabación automática, como archivos de transacciones de tarjetas de crédito y registros en la web, así como datos no simbólicos como las grabaciones de CCTV.
- Se estima que hay más de 650 millones de sitios web, algunos de ellos extremadamente grandes.
- Hay más de 1.100 millones de usuarios de Facebook (en rápido aumento), con una estimación de 3.000 millones de publicaciones al día.
- Se estima que hay alrededor de 150 millones de usuarios de Twitter, enviando 350 millones de Tweets cada día.
Junto con los avances en la tecnología de almacenamiento, que permiten cada vez más almacenar tan vastas cantidades de datos a un costo (o coste, como se emplea mayoritariamente en España) relativamente bajo, ya sea en almacenes de datos comerciales, laboratorios de investigación científica o en otros lugares, ha surgido la creciente conciencia de que esos datos contienen enterrados en su interior conocimientos que pueden ser fundamentales para el crecimiento o el declive de una empresa, conocimientos que podrían dar lugar a importantes descubrimientos en la ciencia (para un examen del concepto, véase que es la ciencia y que es una ciencia física), conocimientos que podrían permitirnos predecir con precisión el clima y los desastres naturales, conocimientos que podrían permitirnos identificar las causas y las posibles curas de enfermedades letales, conocimientos que podrían significar literalmente la diferencia entre la vida y la muerte. [rtbs name=”muerte”] [rtbs name=”pena-de-muerte”] [rtbs name=”pena-capital”] [rtbs name=”muerte”]
Puntualización
Sin embargo, los enormes volúmenes involucrados significan que la mayoría de estos datos son simplemente almacenados, para nunca ser examinados de manera más que superficial, si es que lo son. Se ha dicho con razón que el mundo se está convirtiendo en “rico en datos pero pobre en conocimientos”.
La tecnología de aprendizaje automático, en parte muy establecida desde hace mucho tiempo, tiene el potencial de resolver el problema de la marea de datos que está inundando las organizaciones, los gobiernos y los individuos.
Descubrimiento de conocimientos
El descubrimiento de conocimientos se ha definido como la “extracción no trivial de información implícita, previamente desconocida y potencialmente útil a partir de datos”. Es un proceso del que la extracción de datos forma solo una parte, aunque central.
Llegan datos, posiblemente de muchas fuentes. Se integran y se colocan en algún almacén de datos común. Parte de ellos se toma y se preprocesa en un formato estándar. Estos “datos preparados” se pasan a un algoritmo de minería de datos que produce una salida en forma de reglas o algún otro tipo de “patrones”. Estos son interpretados para dar – y este es el Santo Grial para el descubrimiento del conocimiento – un nuevo y potencialmente útil conocimiento.
Esta breve descripción deja claro que aunque los algoritmos de minería de datos son fundamentales para el descubrimiento del conocimiento, no son la historia completa. El preprocesamiento de los datos y la interpretación (en contraposición al uso a ciegas) de los resultados son ambos de gran importancia. Se trata de tareas especializadas que son mucho más un arte (o una habilidad aprendida de la experiencia) que una ciencia exacta. Aunque ambos son tratados por la literatura en este ámbito, los algoritmos de la etapa de minería de datos del descubrimiento del conocimiento serán su principal preocupación.
Aplicaciones de la minería de datos
Existe un conjunto de aplicaciones exitosas en una amplia gama de áreas tan diversas como:
- el análisis de imágenes de satélite
- análisis de los compuestos orgánicos
- de abstracción automática
- detección de fraude con tarjetas de crédito
- predicción de carga eléctrica
- previsión financiera
- diagnóstico médico
- predecir la cuota de audiencia de la televisión
- diseño de productos
- valoración de bienes raíces
- marketing dirigido
- resumen del texto
- optimización de la central térmica
- análisis del peligro tóxico
- pronóstico del tiempo
- y muchos más.
Algunos ejemplos de aplicaciones (potenciales o reales) son:
- una cadena de supermercados extrae los datos de las transacciones de sus clientes para optimizar la captación de clientes de alto valor
- una empresa de tarjetas de crédito puede utilizar su almacén de datos de transacciones de clientes para la detección de fraudes
- una gran cadena hotelera puede utilizar las bases de datos de la encuesta para identificar los atributos de un prospecto de “alto valor”
- predecir la probabilidad de impago de las solicitudes de préstamos al consumidor mejorando la capacidad de predecir los préstamos dudosos
reduciendo las fallas de fabricación en los chips VLSI - los sistemas de minería de datos pueden cribar grandes cantidades de datos recogidos durante el proceso de fabricación de semiconductores para identificar las condiciones que están causando problemas de rendimiento
- la predicción de la cuota de audiencia de los programas de televisión, lo que permite a los ejecutivos de televisión organizar los horarios de los programas para maximizar la cuota de mercado y aumentar los ingresos por publicidad
- predecir la probabilidad de que un paciente de cáncer responda a la quimioterapia, reduciendo así los costos (o costes, como se emplea mayoritariamente en España) de la atención de la salud sin afectar la calidad de la atención
- analizando los datos de captura de movimiento de las personas mayores
- minería de tendencias y visualización en las redes sociales.
Las aplicaciones pueden dividirse en cuatro tipos principales: clasificación, predicción numérica, asociación y agrupación. (Tal vez sea de interés más investigación sobre el concepto). Cada uno de ellos se explica brevemente a continuación. (Tal vez sea de interés más investigación sobre el concepto).
Puntualización
Sin embargo, primero debemos distinguir entre dos tipos de datos.
1.4 Datos etiquetados y no etiquetados
En general, tenemos un conjunto de ejemplos (llamados instancias), cada uno de los cuales comprende los valores de una serie de variables, que en la minería de datos suelen denominarse atributos. Hay dos tipos de datos, que se tratan de manera radicalmente diferente.
Para el primer tipo hay un atributo especialmente designado y el objetivo es utilizar los datos dados para predecir el valor de ese atributo para instancias que aún no se han visto.
Informaciones
Los datos de este tipo se denominan etiquetados. La minería de datos usando datos etiquetados se conoce como aprendizaje supervisado. Si el atributo designado es categórico, es decir, debe tomar uno de una serie de valores distintos como “muy bueno”, “bueno” o “malo”, o (en una aplicación de reconocimiento de objetos) “coche”, “bicicleta”, “persona”, “autobús” o “taxi” la tarea se denomina clasificación. (Tal vez sea de interés más investigación sobre el concepto). Si el atributo designado es numérico, por ejemplo, el precio de venta esperado de una casa o el precio de apertura de una acción en el mercado de valores de mañana, la tarea se denomina regresión.
Los datos que no tienen ningún atributo especialmente designado se denominan no etiquetados. La extracción de datos sin etiquetar se conoce como aprendizaje no supervisado. Aquí el objetivo es simplemente extraer la mayor cantidad de información posible de los datos disponibles.
Aprendizaje supervisado: Clasificación
La clasificación es una de las aplicaciones más comunes de la minería de datos. Corresponde a una tarea que se realiza con frecuencia en la vida cotidiana. Por ejemplo, un hospital puede querer clasificar a los pacientes médicos en aquellos que tienen un riesgo alto, medio o bajo de adquirir una determinada enfermedad, una empresa de encuestas de opinión puede querer clasificar a las personas entrevistadas en aquellas que probablemente voten por cada uno de los diversos partidos políticos o estén indecisas, o podemos querer clasificar un proyecto de estudiante como distinguido, meritorio, aprobado o reprobado.
Hay varias maneras de hacerlo, incluyendo las siguientes.
- Emparejamiento con el vecino más cercano. Este método se basa en identificar (digamos) los cinco ejemplos que son “más cercanos” en algún sentido a uno no clasificado. Si los cinco “vecinos más cercanos” tienen grados Segundo, Primero, Segundo, Segundo y Segundo podríamos concluir razonablemente que el nuevo ejemplo debería ser clasificado como “Segundo”.
- Reglas de clasificación. (Tal vez sea de interés más investigación sobre el concepto). Buscamos reglas que podamos usar para predecir la clasificación de una instancia no vista.
- Árbol de clasificación. (Tal vez sea de interés más investigación sobre el concepto). Una forma de generar reglas de clasificación es a través de una estructura intermedia en forma de árbol llamada árbol de clasificación o árbol de decisión.
Aprendizaje supervisado: Predicción numérica
La clasificación es una forma de predicción, donde el valor a predecir es una etiqueta. La predicción numérica (a menudo llamada regresión) es otra.Entre las Líneas En este caso queremos predecir un valor numérico, como los beneficios de una empresa o el precio de una acción. (Tal vez sea de interés más investigación sobre el concepto). Una forma muy popular de hacer esto es usar una Red Neural.
Basado en la experiencia de varios autores, mis opiniones, perspectivas y recomendaciones se expresarán a continuación (o en otros lugares de esta plataforma, respecto a las características en 2026 o antes, y el futuro de esta cuestión):
Aprendizaje no supervisado: Reglas de la Asociación
A veces deseamos utilizar un conjunto de entrenamiento para encontrar cualquier relación que exista entre los valores de las variables, generalmente en forma de reglas conocidas como reglas de asociación. (Tal vez sea de interés más investigación sobre el concepto). Hay muchas reglas de asociación posibles derivadas de un conjunto de datos determinado, la mayoría de ellas de escaso o nulo valor, por lo que es habitual que las reglas de asociación se enuncien con alguna información adicional que indique, por ejemplo, cuán fiables son.
Una forma común de este tipo de aplicación se denomina “análisis de la cesta de la compra”. Si conocemos las compras realizadas por todos los clientes de una tienda durante, por ejemplo, una semana, podemos ser capaces de encontrar las relaciones que ayudarán a la tienda a comercializar sus productos más eficazmente en el futuro.
Aprendizaje no supervisado: Agrupación
Los algoritmos de agrupación examinan los datos para encontrar grupos de elementos que son similares. Por ejemplo, una compañía de seguros podría agrupar a los clientes según sus ingresos, edad, tipos de pólizas adquiridas o experiencia previa en reclamaciones.Entre las Líneas En una aplicación de diagnóstico de fallas, las fallas eléctricas podrían agruparse según los valores de ciertas variables clave.
Datos verificados por: LI
Minería de datos
Minería de datos en Economía
En inglés: Data Mining in economics. Véase también acerca de un concepto similar a Minería de datos en economía.
Introducción a: Minería de datos en este contexto
Se define la minería de datos presentando un ejemplo en el que se contrasta el papel de la búsqueda de especificaciones en economía con su función en las ciencias experimentales. Se ofrecen referencias históricas, junto con una breve revisión de las propuestas contemporáneas para remediar las fuentes y los problemas de la minería de datos. Este texto tratará de equilibrar importantes preocupaciones teóricas con debates empíricos clave para ofrecer una visión general de este importante tema sobre: Minería de datos. Para tener una panorámica de la investigación contemporánea, puede interesar asimismo los textos sobre economía conductual, economía experimental, teoría de juegos, microeconometría, crecimiento económico, macroeconometría, y economía monetaria.
📬Si este tipo de historias es justo lo que buscas, y quieres recibir actualizaciones y mucho contenido que no creemos encuentres en otro lugar, suscríbete a este substack. Es gratis, y puedes cancelar tu suscripción cuando quieras: Qué piensas de este contenido? Estamos muy interesados en conocer tu opinión sobre este texto, para mejorar nuestras publicaciones. Por favor, comparte tus sugerencias en los comentarios. Revisaremos cada uno, y los tendremos en cuenta para ofrecer una mejor experiencia.Datos verificados por: Sam.
[rtbs name=”economia-fundamental”] [rtbs name=”macroeconomia”] [rtbs name=”microeconomia”] [rtbs name=”economia-internacional”] [rtbs name=”finanzas-personales”] [rtbs name=”ciencia-economica”] [rtbs name=”pensamiento-economico”] [rtbs name=”principios-de-economia”] [rtbs name=”mercados-financieros”] [rtbs name=”historia-economica”] [rtbs name=”sistemas-economicos”] [rtbs name=”politicas-economicas”]▷ Esperamos que haya sido de utilidad. Si conoces a alguien que pueda estar interesado en este tema, por favor comparte con él/ella este contenido. Es la mejor forma de ayudar al Proyecto Lawi.