▷ Sabiduría semanal que puedes leer en pocos minutos. Añade nuestra revista gratuita a tu bandeja de entrada. Lee gratis nuestras revistas de Derecho empresarial, Emprender, Carreras, Liderazgo, Dinero, Startups, Políticas, Ecología, Ciencias sociales, Humanidades, Marketing digital, Ensayos, y Sectores e industrias.

Minería de Textos

▷ Lee Gratis Nuestras Revistas

Minería de Textos

Este elemento es una ampliación de los cursos y guías de Lawi. Ofrece hechos, comentarios y análisis sobre este tema. [aioseo_breadcrumbs] En este texto nos ocupamos de un tipo particular de tarea de clasificación, en la que los objetos son documentos de texto como artículos de periódicos, artículos científicos en revistas o quizás resúmenes de artículos, o incluso solo sus títulos. El objetivo es utilizar un conjunto de documentos preclasificados para clasificar los que aún no se han visto. Esto se está convirtiendo en un problema práctico cada vez más importante, ya que el volumen de material impreso en muchos campos sigue aumentando e incluso en campos especializados puede ser muy difícil localizar los documentos pertinentes. Gran parte de la terminología utilizada refleja los orígenes de esta labor en la bibliotecología y la ciencia de la información, mucho antes de que se dispusiera de técnicas de extracción de datos.
En principio, podemos utilizar cualquiera de los métodos estándar de clasificación (Naïve Bayes, Nearest Neighbourbour, árboles de decisión, etc.) para esta tarea, pero los conjuntos de datos de documentos de texto tienen una serie de características específicas en comparación con los conjuntos de datos que hemos visto hasta ahora, que requieren una explicación por separado. El caso especial en que los documentos son páginas web se tratará en la sección de aquí..

Clasificaciones múltiples

Una cuestión importante que distingue la clasificación de texto de las otras tareas de clasificación discutidas en este libro es la posibilidad de clasificaciones múltiples. Hasta ahora hemos asumido que hay un conjunto de categorías mutuamente excluyentes y que cada objeto debe inevitablemente encajar en una y solo una de ellas.

La clasificación del texto es bastante diferente.Entre las Líneas En general podemos tener
N categorías como Derecho, Negocios, Finanzas, Histórico, Biográfico, Gestión y Educación y es perfectamente posible que un documento encaje en varias de estas categorías, posiblemente en todas o posiblemente en ninguna.
En lugar de ampliar la definición de clasificación utilizada hasta ahora, preferimos pensar en la tarea de clasificación del texto como N tareas de clasificación binaria separadas, por ejemplo:

¿El documento es sobre derecho? Sí/No
¿El documento es sobre negocios? Sí/No
¿El documento es sobre finanzas? Sí/No

y así sucesivamente. La necesidad de realizar N tareas de clasificación por separado aumentan considerablemente el tiempo necesario para esta forma de clasificación, que incluso para una sola clasificación suele ser costosa desde el punto de vista computacional.

Representación de documentos de texto para la extracción de datos

Para las tareas de minería de datos “estándar”, los datos se presentan al sistema de minería de datos en la forma estándar descrita en el capítulo 2, o algo similar. Hay un número fijo de atributos (o características) que se eligieron antes de que se recogieran los datos.Entre las Líneas En el caso de la minería de textos, el conjunto de datos suele comprender los propios documentos y las características se extraen de los documentos automáticamente en función de su contenido antes de que se aplique el algoritmo de clasificación. (Tal vez sea de interés más investigación sobre el concepto). Por lo general hay un número muy grande de características, la mayoría de las cuales solo se producen en raras ocasiones, con una elevada proporción de características ruidosas e irrelevantes.

Hay varias formas de realizar la conversión de documentos de texto simple a instancias con un número fijo de atributos en un conjunto de formación. (Tal vez sea de interés más investigación sobre el concepto). Por ejemplo, se podría contar el número de veces que se producen frases especificadas, o tal vez cualquier combinación de dos palabras consecutivas, o se podría contar la aparición de dos o tres combinaciones de caracteres (conocidas como bigrams y trigramas respectivamente). A los efectos del presente capítulo, supondremos que se utiliza una simple representación basada en palabras, conocida como representación de bolsa de palabras. Con esta representación se considera que un documento es simplemente una colección de las palabras que aparecen en él al menos una vez. Se ignora el orden de las palabras, las combinaciones en las que aparecen, la estructuración de los párrafos, la puntuación y, por supuesto, los significados de las palabras. Un documento no es más que un conjunto de palabras colocadas en un orden arbitrario, digamos alfabético, junto con un recuento de cuántas veces se produce cada una, o alguna otra medida de la importancia de cada palabra.

Suponiendo que deseamos almacenar un “valor de importancia” para cada palabra en un documento como una instancia en un conjunto de formación, ¿cómo debemos hacerlo? Si un documento dado tiene digamos 106 palabras diferentes, no podemos utilizar simplemente una representación con 106 atributos (ignorando las clasificaciones). Otros documentos del conjunto de datos pueden utilizar otras palabras, probablemente superpuestas a las 106 en el caso actual, pero no necesariamente.

Informaciones

Los documentos invisibles que deseamos clasificar pueden tener palabras que no se utilizan en ninguno de los documentos de formación. (Tal vez sea de interés más investigación sobre el concepto). Un enfoque obvio -pero extremadamente malo- sería asignar tantos atributos como sean necesarios para permitir todas las palabras posibles que podrían utilizarse en cualquier posible documento no visto. Lamentablemente, si el idioma de los documentos es el inglés, el número de palabras posibles es de aproximadamente un millón, lo que constituye un número irremediablemente impracticable de atributos a utilizar.

Un enfoque mucho mejor es restringir la representación a las palabras que realmente aparecen en los documentos de capacitación. (Tal vez sea de interés más investigación sobre el concepto). Esto puede ser todavía muchos miles (o más) y veremos las formas de reducir este número en las secciones 20.3 y 20.4 más adelante. Colocamos todas las palabras utilizadas al menos una vez en un “diccionario” y asignamos una posición de atributo en cada fila de nuestro conjunto de formación para cada una. El orden en el que lo hacemos es arbitrario, así que podemos pensarlo por orden alfabético.
La representación de la bolsa de palabras es inherentemente muy redundante. Es probable que para cualquier documento en particular la mayoría de los atributos/características (es decir, las palabras) no aparezcan. Por ejemplo, el diccionario utilizado puede tener 10.000 palabras, pero un documento específico puede tener solo 200 palabras diferentes.Entre las Líneas En ese caso, su representación como instancia en el conjunto de capacitación tendrá 9.800 de 10.000 atributos con valor cero, lo que indica que no hay ocurrencias, es decir, que no se utilizan.

Si existen múltiples clasificaciones, hay dos posibilidades para construir el diccionario de palabras para una colección de documentos de formación. (Tal vez sea de interés más investigación sobre el concepto). Cualquiera que sea la que se utilice, es probable que el diccionario sea grande.

La primera es el enfoque del diccionario local (pondere más sobre todos estos aspectos en la presente plataforma online de ciencias sociales y humanidades). Formamos un diccionario diferente para cada categoría, utilizando solo las palabras que aparecen en los documentos clasificados en esa categoría.

Esto permite que cada diccionario sea relativamente pequeño a costa de tener que construir N de ellos, donde hay N categorías.

El segundo enfoque consiste en construir un diccionario global, que incluya todas las palabras que aparecen por lo menos una vez en cualquiera de los documentos. Esto se utiliza luego para la clasificación en cada una de las
N categorías. La construcción de un diccionario global será claramente mucho más rápida que la construcción de N diccionarios locales, pero a costa de hacer una representación aún más redundante para utilizarla para clasificar en cada una de las categorías. Hay algunas pruebas que sugieren que el uso de un enfoque de diccionario local tiende a dar mejores resultados que el uso de un diccionario global.

Palabras de parada

Con el enfoque de la bolsa de palabras, es posible que se produzcan decenas de miles de palabras diferentes en un conjunto bastante pequeño de documentos. Muchas de ellas no son importantes para la tarea de aprendizaje y su uso puede degradar sustancialmente el rendimiento. Es imperativo reducir en la medida de lo posible el tamaño del espacio de las características (es decir, el conjunto de palabras incluidas en el diccionario). Esto puede considerarse una variante de los métodos de preparación y limpieza de datos.

Un enfoque ampliamente utilizado es utilizar una lista de palabras comunes que probablemente sean inútiles para la clasificación, conocidas como palabras de parada, y eliminar todas las ocurrencias de estas palabras antes de crear la representación de la bolsa de palabras. No existe una lista definitiva de palabras de parada que se utilice universalmente. La lista obviamente variaría de un idioma a otro, pero en inglés algunas opciones obvias serían “un”, “una”, “el”, “es”, “yo”, “tu” y “de”. Estudiar la frecuencia y distribución de tales palabras podría ser muy útil para el análisis estilístico, es decir, para decidir cuál de varios posibles autores escribió una novela o una obra de teatro, etc., pero para clasificar un documento en categorías como Medicina, Finanzas, etc., son claramente inútiles. La Universidad de Glasgow tiene una lista de 319 palabras de parada en inglés que empiezan con a, sobre, encima, a través, después, después y que terminan con “tigo” y otros. Hasta cierto punto, cuanto más larga sea la lista de palabras clave, mejor, el único riesgo es la posible pérdida de información clasificatoria útil si la lista se vuelve excesiva. Otra forma muy importante de reducir el número de palabras en la representación es usar “stemming”.

▷ Lo último (en 2026)
▷ Si te gustó este texto o correo, considera compartirlo con tus amigos. Si te lo reenviaron por correo, considera suscribirte a nuestras publicaciones por email de Derecho empresarialEmprenderDineroMarketing digital y SEO, Ensayos, PolíticasEcologíaCarrerasLiderazgoInversiones y startups, Ciencias socialesDerecho globalHumanidades, Startups, y Sectores económicos, para recibir ediciones futuras.

Esto se basa en la observación de que las palabras de los documentos suelen tener muchas variantes morfológicas. Por ejemplo, podemos utilizar las palabras “computación”, “ordenador”, “cálculo”, “computación”, “computación” y “computabilidad” en el mismo documento. Estas palabras tienen claramente la misma raíz lingüística. [rtbs name=”home-linguistica”]Si las juntáramos como si se tratara de la aparición de una sola palabra, probablemente daríamos una fuerte indicación del contenido del documento, mientras que cada palabra individualmente podría no hacerlo.

Basado en la experiencia de varios autores, mis opiniones, perspectivas y recomendaciones se expresarán a continuación (o en otros lugares de esta plataforma, respecto a las características en 2026 o antes, y el futuro de esta cuestión):

El objetivo de la derivación es reconocer conjuntos de palabras como “computación” y “cálculo” o “aplicado”, “aplicando”, “aplica” y “aplica” que puedan ser tratadas como equivalentes. Hay muchos algoritmos de derivación que se han desarrollado para reducir una palabra a su forma de tallo o raíz, por la que luego es reemplazada. Por ejemplo, “computación” y “computación” pueden ser ambos derivados de “computar”, y “aplica” etc. de “aplica”.

El uso de “stemming” (un método para reducir una palabra a su raíz) puede ser una forma muy efectiva de reducir el número de palabras en una representación de bolsa de palabras a un número relativamente manejable.

Puntualización

Sin embargo, en cuanto a las palabras de parada, no hay un algoritmo de derivación estándar de uso universal y un algoritmo de derivación demasiado entusiasta puede eliminar palabras valiosas de la consideración. (Tal vez sea de interés más investigación sobre el concepto).

Medición de la distancia entre dos vectores

Una comprobación importante de la idoneidad de la representación del modelo espacial vectorial normalizado de los documentos descritos en las dos últimas secciones es si podemos hacer una definición sensata de la distancia entre dos vectores. Quisiéramos que la distancia entre dos vectores idénticos fuera cero, la distancia entre dos vectores lo más disímiles posible fuera 1 y que la distancia entre cualesquiera otros dos vectores estuviera en algún punto intermedio.

La definición estándar de la distancia entre dos vectores de longitud uno, conocida como vectores unitarios, cumple estos criterios.
Definimos el producto de punto de dos vectores unitarios de la misma dimensión como la suma de los productos de los pares de valores correspondientes.

📬Si este tipo de historias es justo lo que buscas, y quieres recibir actualizaciones y mucho contenido que no creemos encuentres en otro lugar, suscríbete a este substack. Es gratis, y puedes cancelar tu suscripción cuando quieras:

Qué piensas de este contenido? Estamos muy interesados en conocer tu opinión sobre este texto, para mejorar nuestras publicaciones. Por favor, comparte tus sugerencias en los comentarios. Revisaremos cada uno, y los tendremos en cuenta para ofrecer una mejor experiencia.

Datos verificados por: LI

Recursos

[rtbs name=”informes-jurídicos-y-sectoriales”][rtbs name=”quieres-escribir-tu-libro”]

Traducción al Inglés

Traducción al inglés: Text Mining.

Véase También

Clasificación de Texto
Vectorial Modelo Espacial
Documentos
Frecuencia en Documentos
Clasificador Humano
Concepto de minería
Procesamiento de documentos
Búsqueda de texto completo
Lista de programas informáticos de minería de textos
El sentimiento del mercado
Resolución del nombre (semántica y extracción de texto)
Reconocimiento de la entidad nombrada
Análisis de noticias
Aprendizaje de ontología
Registro de la vinculación
Minería de patrones secuenciales (minería de cadenas y secuencias)
w-shingling
La minería de la web, una tarea que puede implicar la minería de textos (por ejemplo, primero encontrar las páginas web apropiadas clasificando las páginas web rastreadas, y luego extraer la información deseada del contenido del texto de esas páginas que se considere pertinente)
Minería de Datos, Lingüística Computacional, Aplicaciones de inteligencia artificial, Minería de datos aplicada, Procesamiento de lenguajes naturales, Procesamiento de lenguajes naturales estadísticos, Texto
Ciencias de la computación, Almacenamiento de información, gestión de bases de datos, técnicas de programación, Recuperación de información

▷ Esperamos que haya sido de utilidad. Si conoces a alguien que pueda estar interesado en este tema, por favor comparte con él/ella este contenido. Es la mejor forma de ayudar al Proyecto Lawi.
▷ Lee Gratis Nuestras Publicaciones
,Si este contenido te interesa, considera recibir gratis nuestras publicaciones por email de Derecho empresarial, Emprender, Dinero, Políticas, Ecología, Carreras, Liderazgo, Ciencias sociales, Derecho global, Marketing digital y SEO, Inversiones y startups, Ensayos, Humanidades, y Sectores económicos, en Substack.

1 comentario en «Minería de Textos»

  1. Por ejemplo, la palabra “apliqué” de un documento puede ser una guía importante para su clasificación, pero podría reducirse derivando a “aplicar”, el mismo tallo como si fuera una palabra mucho menos significativa como “aplica” (con la que es muy poco probable que tenga una conexión lingüística genuina).

    Responder

Foro de la Comunidad: ¿Estás satisfecho con tu experiencia? Por favor, sugiere ideas para ampliar o mejorar el contenido, o cómo ha sido tu experiencia:

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

▷ Recibe gratis nuestras revistas de Derecho empresarial, Emprender, Carreras, Dinero, Políticas, Ecología, Liderazgo, Marketing digital, Startups, Ensayos, Ciencias sociales, Derecho global, Humanidades, y Sectores económicos, en Substack. Cancela cuando quieras.

Descubre más desde Plataforma de Derecho y Ciencias Sociales

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo