Corpus Lingüísticos
Este elemento es una expansión del contenido de los cursos y guías de Lawi. Ofrece hechos, comentarios y análisis sobre este tema. [aioseo_breadcrumbs]
Preparación de Corpus Lingüísticos
El corpus es una herramienta fundamental para cualquier tipo de investigación sobre la lengua. La disponibilidad de ordenadores en la década de 1950 condujo inmediatamente a la creación de corpus en formato electrónico que podían buscarse automáticamente para una variedad de características lingüísticas, y calcular la frecuencia, las características de distribución y otras estadísticas descriptivas. Se recopilaron corpus de obras literarias para poder realizar análisis estilísticos y estudios de autoría, y los corpus que representaban el uso general de la lengua se utilizaron ampliamente en el campo de la lexicografía.Entre las Líneas En esta época, la creación de un corpus electrónico requería introducir el material a mano, y la capacidad de almacenamiento y la velocidad de los ordenadores disponibles en ese momento limitaban la cantidad de datos que podían analizarse de forma realista en un momento dado. Al no existir Internet para fomentar el intercambio de datos, los corpus solían crearse y procesarse en un solo lugar. Dos excepciones notables son el corpus Brown de inglés americano y el corpus London/Oslo/Bergen (LOB) de inglés británico; ambos corpus, cada uno de los cuales contiene un millón de palabras de datos etiquetados para la parte de la oración, se compilaron en la década de 1960 utilizando una muestra representativa de textos producidos en el año 1961. Durante varios años, el Brown y el LOB fueron los únicos corpus de lengua general legibles por ordenador ampliamente disponibles y, por tanto, proporcionaron los datos para numerosos estudios lingüísticos.
En la década de 1980, la velocidad y la capacidad de los ordenadores aumentaron de forma espectacular y, al producirse cada vez más textos en formato informático, fue posible crear corpus mucho más grandes que el Brown y el LOB, con millones de palabras. La disponibilidad de muestras lingüísticas de esta magnitud abrió la posibilidad de recopilar estadísticas significativas sobre los patrones lingüísticos que podrían utilizarse para impulsar el software de procesamiento del lenguaje, como los analizadores sintácticos, lo que despertó un renovado interés por la compilación de corpus dentro de la comunidad de la lingüística computacional. También empezaron a aparecer corpus paralelos, que contienen el mismo texto en dos o más lenguas; el más conocido es el corpus canadiense Hansard de debates parlamentarios en inglés y francés. La creación de corpus seguía implicando un trabajo considerable, incluso cuando los textos podían adquirirse de otras fuentes en formato electrónico. Por ejemplo, muchos textos existían como cintas tipográficas obtenidas de los editores, y era necesario un procesamiento considerable para eliminar o traducir los códigos tipográficos.
La “época dorada” de los corpus lingüísticos comenzó en 1990 y continúa en la actualidad. Se han recopilado, y se siguen recopilando, enormes corpus de texto y habla, muchos de ellos en proyectos financiados por gobiernos de Europa, Estados Unidos y Japón.
Observación
Además de los corpus monolingües, también se han creado varios corpus paralelos multilingües que abarcan varias lenguas. Un efecto secundario del aumento de la disponibilidad y el uso de los corpus en la década de 1990 fue el desarrollo de técnicas automáticas para anotar los datos lingüísticos con información sobre sus propiedades lingüísticas.Entre las Líneas En los años 90 se desarrollaron algoritmos para asignar etiquetas de parte de la oración a las palabras de un corpus y para alinear palabras y frases en textos paralelos (es decir, asociar cada palabra u oración con su traducción en la versión paralela) que alcanzan una precisión del 95-98%. También se desarrollaron medios automáticos para identificar configuraciones sintácticas como frases sustantivas y nombres propios, fechas, etc.
Preparación de corpus lingüísticos
La primera fase de la creación de un corpus es la captura de datos, que consiste en la representación del texto en forma electrónica, ya sea a mano o mediante el reconocimiento óptico de caracteres (OCR), la adquisición de los resultados de los procesadores de texto o de los programas de publicación, las cintas tipográficas, los archivos PDF, etc. La introducción manual es larga y costosa, por lo que no es adecuada para la creación de corpus muy grandes. El resultado del reconocimiento óptico de caracteres puede ser igualmente costoso si requiere un tratamiento posterior importante para validar los datos.
Informaciones
Los datos adquiridos en formato electrónico de otras fuentes contendrán casi siempre códigos de formato y otra información que hay que descartar o traducir a una representación que sea procesable para el análisis lingüístico.
Formatos de representación y cuestiones conexas
En este momento, el formato de representación más común para los corpus lingüísticos es el XML. Varios de los corpus existentes están etiquetados con el estándar de codificación de corpus XML EAGLES (XCES), una aplicación XML compatible con la Iniciativa de Codificación de Textos (TEI) diseñada específicamente para corpus lingüísticos y sus anotaciones. El XCES introdujo la noción de anotación independiente, que requiere que las anotaciones se codifiquen en documentos separados de los datos primarios y se vinculen a ellos. Una de las principales motivaciones de este enfoque es evitar las dificultades de las jerarquías superpuestas, que son comunes cuando se anotan diversos rasgos lingüísticos, así como los documentos poco manejables que pueden producirse cuando se asocian múltiples anotaciones a un mismo documento. El enfoque de separación también permite anotar la misma característica (por ejemplo, la parte de la oración) utilizando esquemas alternativos, así como asociar anotaciones con otras anotaciones en lugar de hacerlo directamente con los datos.
Detalles
Por último, apoya dos nociones básicas sobre el texto y las anotaciones: debería ser posible eliminar la anotación de un corpus anotado para volver al corpus en bruto; y, a la inversa, debería ser posible extraer las anotaciones por sí mismas del texto.
En la actualidad, el uso de la anotación independiente está ampliamente aceptado como norma entre los desarrolladores de corpus y de software de tratamiento de corpus; sin embargo, debido a que los mecanismos de enlace entre documentos se han desarrollado recientemente en el marco de XML, muchos corpus existentes incluyen anotaciones en el mismo documento que el texto.
El uso del modelo de separación dicta que se haga una distinción entre los datos primarios (es decir, el texto sin información lingüística adicional) y sus anotaciones, en particular, lo que debe y no debe marcarse en los primeros. El XCES identifica dos tipos de información que pueden codificarse en los datos primarios:
1 Estructura bruta: elementos universales del texto hasta el nivel del párrafo, que es la unidad más pequeña que puede identificarse independientemente de la lengua; por ejemplo
– unidades estructurales del texto, como volumen, capítulo, etc., hasta el nivel de párrafo; también notas a pie de página, títulos, encabezamientos, tablas, figuras, etc;
– características de la tipografía y la maquetación, en el caso de textos previamente impresos: por ejemplo, marcadores de elementos de la lista;
– información no textual (gráficos, etc.).
2 Estructura segmentaria: elementos que aparecen a nivel de subpárrafo y que suelen estar señalados (a veces de forma ambigua) por la tipografía del texto y que dependen de la lengua; por ejemplo
– oraciones ortográficas, citas;
– palabras ortográficas;
– abreviaturas, nombres, fechas, palabras destacadas.
Las anotaciones (véase la sección siguiente) se vinculan a los datos primarios mediante convenciones XML (XLink, Xpointer).
Los datos del habla, especialmente las señales del habla, suelen tratarse como “sólo de lectura”, por lo que los datos primarios no contienen marcas XML a las que puedan vincularse las anotaciones.Entre las Líneas En este caso, los documentos independientes identifican los puntos de inicio y final (normalmente mediante desplazamientos de bytes) de las estructuras enumeradas anteriormente, y las anotaciones se vinculan indirectamente a los datos primarios haciendo referencia a las estructuras de estos documentos. El formato de representación de gráficos de anotación utilizado en el proyecto ATLAS, que está pensado principalmente para manejar datos del habla, se basa totalmente en este enfoque para vincular las anotaciones a los datos, sin opción de referenciar elementos etiquetados en XML.
Identificación de estructuras segmentarias
El marcado que identifica los límites de las estructuras brutas puede generarse automáticamente a partir de la información de formato original.
Puntualización
Sin embargo, en la mayoría de los casos el formato original es más bien de presentación que descriptivo; por ejemplo, los títulos pueden ser identificables porque están en negrita, y por tanto la transducción a una representación XML descriptiva puede no ser sencilla. Esto es especialmente cierto en el caso de los elementos de los subpárrafos que están en cursiva o en negrita; normalmente es imposible etiquetar automáticamente dichos elementos como énfasis, palabra extranjera, etc.
La creación de corpus lingüísticos exige casi siempre que se identifiquen las estructuras de los subpárrafos, como frases y palabras, así como nombres, fechas, abreviaturas, etc. Se han desarrollado numerosos programas para realizar la “división” de oraciones y la tokenización de palabras, muchos de los cuales están disponibles de forma gratuita (véanse, por ejemplo, las herramientas que figuran en el Natural Language Software Registry (https://www.dfki.de/lt/registry/) o en el SIL Software Catalogue (https://www.sil.org). Estas funciones también están integradas en herramientas de desarrollo de corpus más generales, como GATE (Cunningham 2002). La división de oraciones y la tokenización dependen en gran medida de la lengua y, por lo tanto, requieren información específica (por ejemplo, abreviaturas para la división de oraciones, clíticos y convenciones de puntuación para la tokenización) para la lengua que se está procesando; en algunos casos, se desarrolla un software específico para la lengua, mientras que en otros se alimenta un motor de procesamiento general con la información específica de la lengua como datos y, por lo tanto, puede manejar múltiples lenguas. Las lenguas que no tienen marcadores de límites de palabras, como el chino y el japonés, y el habla continua representada por secuencias de fonemas, requieren un enfoque totalmente diferente de la segmentación, el más común de los cuales es un algoritmo de programación dinámica para calcular los límites más probables a partir de un gráfico de transición ponderado. Esto, por supuesto, exige que las probabilidades de las posibles secuencias de símbolos o fonemas estén disponibles para crear el gráfico ponderado.
En la comunidad de la lingüística computacional se han desarrollado programas informáticos para identificar las llamadas “entidades con nombre” (nombres propios que designan personas, lugares, organizaciones, eventos, documentos, etc.), así como fechas y otras expresiones temporales, y muchas de estas herramientas están disponibles gratuitamente para la investigación.
Puntualización
Sin embargo, la mayoría de estas herramientas se han desarrollado a partir de corpus existentes, que consisten en periódicos e informes gubernamentales, y es poco probable que funcionen bien con los tipos de datos que interesan a los humanistas, como obras literarias, documentos históricos, etc. Este es sólo un ejemplo de la situación más amplia en el desarrollo de herramientas de tratamiento de corpus: los datos disponibles, que a menudo están muy sesgados por el género, impulsan el desarrollo de herramientas y algoritmos, y por lo tanto la aplicabilidad a corpus más generalizados es a menudo limitada.
Anotación del Corpus
Véase a continuación.
Anotación del Corpus
Para la investigación en lingüística computacional, que ha impulsado la mayor parte de los esfuerzos de creación de corpus en la última década, los corpus suelen estar anotados con varios tipos de información lingüística.Entre las Líneas En las siguientes secciones se describen los principales tipos de anotación.
Anotación morfosintáctica
La anotación de corpus más habitual es, con diferencia, la anotación morfosintáctica (etiquetado de parte del discurso), principalmente porque en los últimos quince años se han desarrollado varios etiquetadores automáticos de gran precisión. El etiquetado de partes del discurso es una tarea de desambiguación: para las palabras que tienen más de una parte del discurso posible, es necesario determinar cuál es la correcta, dado el contexto. Aunque, en inglés, cerca del 90 por ciento de las palabras tienen una sola parte de la oración, en el uso real (por ejemplo, en un corpus), la parte de la oración de hasta un 40 por ciento de las palabras puede ser ambigua, debido en gran parte a la ambigüedad de un puñado de palabras de alta frecuencia como, en inglés, “that”, que puede ser tanto un determinante (“that boy”) como un completador (“He heard that you came home”). Más allá de esto, la ambigüedad más común en inglés es entre verbo y sustantivo.
Los etiquetadores se dividen en dos clases generales: los basados en reglas, que utilizan reglas generadas manualmente para asignar la parte de la oración, y los estocásticos, que se basan en las probabilidades de los n-gramas, es decir, las secuencias de n (normalmente, 2 o 3) etiquetas que se sabe que aparecen en los datos reales. Los etiquetadores estocásticos aprenden estas probabilidades al ser “entrenados” con datos previamente etiquetados y cuya corrección ha sido validada a mano. Un tercer tipo de etiquetador, a menudo llamado “etiquetador Brill” por su creador, en los años 90, utiliza un enfoque híbrido que aprende sus reglas de etiquetado a partir de un corpus de entrenamiento previamente etiquetado. Obviamente, cuanto más datos etiquetados con precisión pueda utilizar un etiquetador para el entrenamiento, más probable será que sus probabilidades sean correctas. Este hecho ha llevado a la creación de corpus anotados a mano (o en los que las etiquetas producidas automáticamente han sido validadas a mano) específicamente destinados a la formación, con el fin de permitir a los etiquetadores automáticos producir corpus aún más etiquetados.
Las etiquetas generadas por un etiquetador de partes del discurso proporcionan más información que la simple clase de palabra (sustantivo, verbo, adjetivo, etc.). Se pueden representar varios niveles de información morfosintáctica; cuanto más detallada sea la información, mayor será el conjunto de etiquetas, y cuanto mayor sea el conjunto de etiquetas, menos preciso será un etiquetador automático. Por esta razón, los conjuntos de etiquetas que incluyen entre 50 y 100 etiquetas que colapsan o eliminan la información morfosintáctica detallada -como la información de las especificaciones morfosintácticas para las lenguas de Europa occidental y oriental producidas por el proyecto EAGLES (ilc.pi.cnr.it/EAGLES/home.html)- son los más utilizados en el etiquetado automático.
Hay varios conjuntos de etiquetas de uso común para el inglés, la mayoría de los cuales evolucionaron a partir de las 87 etiquetas utilizadas en el corpus de Brown (hit.uib.no/icame/brown/bcm.html). Probablemente el más utilizado es el conjunto de 45 etiquetas del proyecto Penn Treebank, de las cuales sólo 36 son categorías morfosintácticas reales (el resto son para puntuación, marcadores de lista, etc.). El conjunto de etiquetas de Penn es una variante del conjunto de etiquetas de Brown que elimina la información recuperable de la forma del elemento léxico.
Una Conclusión
Por lo tanto, sólo incluye una etiqueta para las diferentes formas de los verbos “be”, “have” y “do”, mientras que el conjunto de etiquetas Brown (y otros conjuntos de etiquetas comunes para el inglés) proporcionan una etiqueta diferente para cada una de estas formas. Otro conjunto de etiquetas muy conocido para el inglés es el conjunto de etiquetas C5 de 61 etiquetas del etiquetador CLAWS (Constituent Likelihood Automatic Word-tagging System), desarrollado en la Universidad de Lancaster y utilizado para etiquetar el British National Corpus.
Los etiquetadores de parte de la palabra se basan en léxicos que proporcionan todas las posibles asignaciones de parte de la palabra para un elemento léxico encontrado en la entrada, entre las que debe elegir la más probable dado el contexto inmediato.
Una Conclusión
Por lo tanto, la información de los léxicos debe coincidir con el conjunto de etiquetas utilizado por el etiquetador o, al menos, ser compatible con él. Es un hecho desafortunado que a menudo es extremadamente difícil, y a veces imposible, mapear un conjunto de etiquetas a otro, lo que ha dado lugar a una gran recreación de la información léxica para adaptarse a las necesidades de un etiquetador particular.
Muchos léxicos incluyen lemas (formas de raíz), y la anotación morfosintáctica puede producir lemas además de etiquetas de parte de palabra en su resultado. La presencia de lemas en un texto anotado permite extraer todas las formas ortográficas asociadas a un lema determinado (por ejemplo, “do”, “does”, “doing, “did” para el lema “do”).
Puntualización
Sin embargo, aunque son relativamente fáciles de producir, muchos de los corpus existentes no incluyen lemas; las excepciones más notables son el corpus Journal of the Commission, el corpus multilingüe Orwell y el corpus SUSANNE.
Alineación paralela
Además de los algoritmos de anotación morfosintáctica, se han desarrollado algoritmos fiables para la alineación de textos paralelos, es decir, textos para los que existen traducciones en dos o más lenguas. La información de probabilidad sobre las correspondencias entre palabras, frases y otras estructuras derivadas de los corpus alineados se utiliza para elegir entre las múltiples traducciones posibles que puede generar un sistema de traducción automática. Los corpus paralelos también se han utilizado para generar automáticamente diccionarios bilingües y, posteriormente, como medio para lograr el etiquetado automático de sentido de los corpus.
Hay dos tipos de alineación paralela: la alineación de frases y la alineación de palabras. La alineación de frases es, con mucho, la más fácil y precisa de las dos, ya que el principal problema es determinar los casos en los que existen mapeos uno-a-muchos o parciales. Existen muchos corpus de alineación de frases y palabras, la gran mayoría de los cuales sólo incluyen dos lenguas. El más conocido es probablemente el corpus Hansard inglés-francés de los debates parlamentarios canadienses, que ha servido de base para numerosos estudios de traducción. Los corpus paralelos multilingües son mucho más escasos; la dificultad no radica en la alineación en sí, sino en la disponibilidad de textos en múltiples traducciones (en particular, textos que no estén sujetos a derechos de autor u otras restricciones). Entre los corpus multilingües alineados existentes se encuentran el corpus de textos paralelos de las Naciones Unidas (español, francés e inglés), el corpus del Diario de la Comisión (JOC) (alemán, español, francés, inglés e italiano), el corpus Orwell 1984 (búlgaro, checo, inglés, estonio, húngaro, letón, lituano, rumano, serbocroata y esloveno), la República de Platón (alemán, búlgaro, chino, checo, eslovaco, esloveno, inglés, letón, polaco y rumano) y la Biblia (alemán, chino, danés, español, finlandés, francés, griego, indonesio, latín, swahili, sueco y vietnamita).
Anotación sintáctica
Existen dos tipos principales de anotación sintáctica en los corpus lingüísticos: la anotación de frases nominales o “chunking” y la creación de “bancos de árboles” que incluyen un análisis sintáctico más completo. Los corpus con anotaciones sintácticas sirven para varias aplicaciones estadísticas, sobre todo al proporcionar probabilidades para los analizadores sintácticos, y también se han utilizado para derivar gramáticas libres de contexto y basadas en la unificación. Los corpus anotados sintácticamente también proporcionan a los lingüistas teóricos datos para apoyar los estudios sobre el uso de la lengua.
El banco de árboles más conocido y utilizado es el Penn Treebank for English.
Por último, los denominados “sistemas híbridos” combinan el análisis de constituyentes y las dependencias funcionales, y suelen producir un análisis superficial de los constituyentes que pone entre paréntesis los principales tipos de frases e identifica las dependencias entre las cabezas de los constituyentes (por ejemplo, el corpus NEGRA).
Aunque la mayoría de los bancos de árboles modernos utilizan una codificación SGML o XML en lugar de estructuras de lista, la anotación sintáctica se intercala invariablemente con el propio texto. Esto hace difícil o imposible añadir otro tipo de anotaciones a los datos, o proporcionar anotaciones sintácticas alternativas. Como se ha señalado anteriormente, cada vez se fomenta más el uso de anotaciones independientes. Se han desarrollado un esquema de anotaciones sintácticas, que también sirve como formato “pivote” para representar diferentes tipos de anotaciones sintácticas con un esquema común.
Anotación semántica
Por anotación semántica se entiende cualquier tipo de anotación que añada información sobre el significado de los elementos de un texto. Algunas anotaciones que se puede considerar que aportan información semántica -por ejemplo, la información sobre el “rol del caso”, como agente, instrumento, etc. – suelen incluirse en las anotaciones sintácticas. Otro tipo de anotación semántica habitual en el análisis literario (especialmente en los años 60 y 70) marca palabras o frases de un texto como representativas de un tema o concepto concreto.Entre las Líneas En la actualidad, el tipo más común de anotación semántica es el “etiquetado de sentido”: la asociación de elementos léxicos en un texto con un sentido o definición particular, generalmente extraído de un inventario de sentido existente proporcionado en un diccionario o léxico en línea como WordNet.
La mayor dificultad de la anotación de sentidos es determinar un conjunto adecuado de ellos. El simple examen de las diferencias en las distinciones de sentido que se hacen de un diccionario a otro demuestra la dificultad de esta tarea. Para resolver el problema, se han hecho algunos intentos de identificar los tipos de distinciones de sentido que son útiles para el procesamiento automático del lenguaje: por ejemplo, tareas como la recuperación de información pueden requerir sólo distinciones de sentido muy gruesas -la diferencia entre “banco” como institución financiera y banco fluvial- mientras que otras, y en particular la traducción automática, requieren distinciones más finas -por ejemplo, entre “banco” como institución financiera y como edificio-.
Puntualización
Sin embargo, la fuente más común de etiquetas de sentido utilizadas para la anotación semántica es WordNet, un diccionario en línea que, además de proporcionar listas de sentido, agrupa las palabras en “synsets” de palabras sinónimas. WordNet se ha actualizado varias veces, por lo que su lista de sentidos puede variar para una palabra concreta en función de la versión de WordNet utilizada para el etiquetado.
Se reconoce ampliamente que las distinciones de sentido proporcionadas por WordNet están lejos de ser óptimas.
Puntualización
Sin embargo, este recurso, que se encuentra entre los más utilizados en la investigación sobre el procesamiento del lenguaje natural en la última década, probablemente seguirá sirviendo de base para el etiquetado de sentidos al menos en el futuro próximo, aunque sólo sea porque sigue siendo el único léxico disponible de forma gratuita y que puede ser utilizado por las máquinas y que ofrece una amplia cobertura del inglés. El proyecto Euro WordNet ha producido WordNets para la mayoría de las lenguas de Europa occidental vinculadas a WordNet 1.5 (la versión actual de la WordNet inglesa es la 2.0), y se están desarrollando WordNets para otras lenguas (por ejemplo, las balcánicas), lo que probablemente ampliará la confianza de la comunidad investigadora en su inventario de sentidos.Entre las Líneas En cualquier caso, no se ha propuesto ninguna fuente alternativa claramente superior de distinciones de sentido.
Dado que el etiquetado de sentidos requiere una anotación manual y que los anotadores humanos a menudo no están de acuerdo con las asignaciones de sentidos, incluso si se trata de un inventario de sentidos predefinido, existen muy pocos corpus etiquetados. Algunos ejemplos son el Semantic Concordance Corpus, producido por el proyecto WordNet, que asigna etiquetas de sentido de WordNet a todos los nombres, verbos y adjetivos de un corpus de 250.000 palabras extraídas principalmente del Brown Corpus; el DSO Corpus, que contiene etiquetas de sentido para 121 nombres y 70 verbos en unas 192.800 frases extraídas del Brown Corpus y del Wall Street Journal; y Hector, que contiene unas 200.000 instancias etiquetadas de 300 palabras en un corpus de inglés británico.
Desde que se dispone de textos legibles por máquina, se han buscado medios automáticos para etiquetar los datos. Esta área de investigación, denominada “desambiguación del sentido de las palabras”, sigue siendo hasta hoy uno de los problemas más difíciles del procesamiento del lenguaje. Aunque se han desarrollado enfoques basados en reglas, las aproximaciones más comunes a la desambiguación del sentido de las palabras en la última década se basan en la estadística, confiando en la frecuencia con la que los elementos léxicos (o categorías de elementos léxicos) en el contexto considerado se han encontrado en el contexto de una palabra en un sentido determinado. Algunas investigaciones de principios del siglo XXI han explorado el uso de información obtenida de traducciones paralelas para hacer distinciones de sentido. Para una visión general de los enfoques de la desambiguación del sentido de las palabras, véase esta plataforma.
Anotación a nivel de discurso
Hay tres tipos principales de anotación a nivel de discurso: identificación de temas, anotación de correferencia y estructura del discurso.
Identificación de temas
(también llamada “detección de temas”) anota los textos con información sobre los acontecimientos o actividades descritos en el texto. Se están desarrollando medios automáticos para la detección de temas en flujos de datos como las noticias y los telediarios, principalmente en el contexto de la tarea de detección de temas patrocinada por DARPA. Una subtarea de este tipo de anotación es la detección de los límites entre historias/textos, que también puede incluirse en la anotación.
Anotación de correferencia
Relaciona los objetos de referencia (por ejemplo, pronombres, frases sustantivas definidas) con elementos anteriores de un discurso al que se refieren. Este tipo de anotación se realiza invariablemente de forma manual, ya que no se dispone de un software fiable para identificar los correferentes.
Anotación de la estructura del discurso
Identifica jerarquías de varios niveles de segmentos del discurso y las relaciones entre ellos, a partir del análisis de bajo nivel de cláusulas, frases u oraciones. Existen varios enfoques teóricos para el análisis de la estructura del discurso, que difieren en cuanto a la extensión del texto (cláusula, frase, etc.) que se considera la unidad atómica de análisis, y en las relaciones que se definen entre las unidades y las estructuras de nivel superior construidas a partir de ellas. Los enfoques más comunes se basan en los “espacios de enfoque” (Grosz y Sidner 1986) o en la teoría de la estructura retórica (Mann y Thompson 1988). Hasta la fecha, la anotación de la estructura del discurso se realiza casi siempre a mano, aunque se han desarrollado algunos programas informáticos para realizar la segmentación del discurso (por ejemplo, Marcu 1996).
Basado en la experiencia de varios autores, mis opiniones, perspectivas y recomendaciones se expresarán a continuación (o en otros lugares de esta plataforma, respecto a las características en 2026 o antes, y el futuro de esta cuestión):
Anotación del discurso y de los datos hablados
El tipo más común de anotación del habla es una transcripción ortográfica alineada en el tiempo con una grabación de audio o vídeo. A menudo se incluye una anotación que delimita los “turnos” del habla y las “expresiones” individuales. Algunos ejemplos de corpus de habla con este tipo de formato son el corpus del Sistema de Intercambio de Datos sobre el Lenguaje Infantil (CHILDES) (MacWhinney 1995), el corpus TIMIT de habla leída (Lamel et al. 1990) y el Proyecto de Archivo de Datos Lingüísticos LACITO (Jacobson y Michailovsky 2000).
La transcripción ortográfica de los datos del habla puede ser anotada con cualquiera de los tipos de información lingüística señalados en las secciones anteriores (por ejemplo, parte de la oración, sintaxis, correferencia, etc.), aunque esto no es común.
Otros Elementos
Además, los datos del habla pueden ser anotados con segmentación y etiquetado fonético (transcripción fonética), fraseo prosódico y entonación, disfluencias y, en el caso del vídeo, gestos.
La mayoría de los tipos de anotación específicos de los datos del habla requieren mucho tiempo porque deben generarse a mano y porque los anotadores deben ser expertos en el reconocimiento y la transcripción de los sonidos del habla.
Otros Elementos
Además, la anotación del habla es problemática: por ejemplo, la transcripción fonética se basa en la suposición de que la señal del habla puede dividirse en sonidos únicos y claramente delimitados, pero estas delimitaciones suelen ser poco claras. La anotación prosódica es aún más subjetiva, ya que la decisión sobre la naturaleza exacta de un movimiento tonal suele variar de un anotador a otro. Los tipos de fenómenos que se anotan incluyen el inicio, el tono ascendente, el tono descendente, el tono ascendente/descendente, el tono nivelado, la pausa, el solapamiento, etc.
Pormenores
Las anotaciones prosódicas son muy variadas y no suelen presentarse en un formato estándar como el XML. Por ello, los pocos corpus existentes con anotaciones prosódicas son muy inconsistentes en su formato. Uno de los corpus más conocidos es el London-Lund Corpus of Spoken English.
Herramientas y futuro de la anotación de corpus
Herramientas de anotación de corpus
En la última década, varios proyectos han creado herramientas para facilitar la anotación de corpus lingüísticos. La mayoría se basan en un modelo arquitectónico común introducido en el proyecto MULTEXT, que considera el proceso de anotación como una cadena de procesos individuales más pequeños que van añadiendo anotaciones a los datos. Un modelo similar se desarrolló en el proyecto TIPSTER.
Entre las herramientas de anotación existentes para datos lingüísticos se encuentran LT XML (Universidad de Edimburgo), que implementa directamente el modelo MULTEXT y está especialmente orientado a los recursos codificados en XML; GATE (Universidad de Sheffield), basado en el modelo TIPSTER y que incluye herramientas de tokenización, división de oraciones, reconocimiento de entidades con nombre, etiquetado de partes del discurso, así como herramientas de edición de corpus y anotaciones. El proyecto Multilevel Annotation, Tools Engineering (MATE) ofrece un conjunto de herramientas de anotación diseñadas especialmente para corpus de diálogos hablados en múltiples niveles, centrándose en la prosodia, la (morfo)sintaxis, la correferencia, los actos de diálogo y las dificultades comunicativas, así como la interacción entre niveles. ATLAS (Architecture and Tools for Linguistic Analysis Systems) es una iniciativa conjunta del National Institute for Standards and Technology (NIST) de EE.UU., MITRE y el LDC para construir una arquitectura de anotación de propósito general y un formato de intercambio de datos. El punto de partida de ATLAS es el modelo de grafos de anotación, con algunas generalizaciones significativas.
Actualmente, un subcomité de la Organización Internacional de Normalización (ISO) – ISO TC37 SC4 – está desarrollando un modelo generalizado para las anotaciones lingüísticas y las herramientas de procesamiento, basado en las aportaciones de los desarrolladores de los conjuntos de herramientas de anotación mencionados anteriormente, así como de los diseñadores de esquemas de anotación. El objetivo es proporcionar un formato “pivote” común que instancie un modelo de datos generalizado de los recursos lingüísticos y sus anotaciones, al que se puedan asignar los formatos existentes -siempre que sean coherentes con el modelo- para permitir un intercambio fluido.Entre las Líneas En la actualidad, los datos anotados dentro de un proyecto, utilizando XML, gráficos de anotación o un esquema de anotación propio, suelen ser difíciles de importar para su manipulación mediante otro conjunto de herramientas, ya sea para su anotación o análisis. El modelo ISO en desarrollo pretende permitir a los anotadores utilizar cualquiera de los diversos esquemas para representar sus datos y anotaciones, y mapearlos en un formato común para su intercambio. Los usuarios de otros esquemas podrían entonces importar los datos en el formato común a sus propios esquemas. Esto significa, por ejemplo, que un corpus marcado con las convenciones TEI o XCES puede ser mapeado al formato común y, a partir de él, mapeado de nuevo a, por ejemplo, una representación gráfica de anotaciones que permita la manipulación de los datos por parte de las herramientas que implementan ese modelo, sin pérdida de información.
El futuro de la anotación de corpus
Los recientes avances en el mundo del XML, principalmente en el ámbito de los trabajos del Consorcio de la World Wide Web (W3C), han centrado la atención en la posibilidad de construir una web semántica. Esta posibilidad tiene interesantes ramificaciones tanto para la anotación como para el análisis de corpus, en dos sentidos (relacionados).Entre las Líneas En primer lugar, la tecnología subyacente de la web semántica permite definir los tipos de relaciones (enlaces) que un recurso -donde un “recurso” puede ser cualquier fragmento de un documento o el documento en su conjunto- puede tener con otro. Por ejemplo, una “palabra” puede tener un enlace etiquetado como “parte de la oración” con otro recurso que representa (posiblemente, como una simple cadena) “sustantivo” o “sustantivo masculino singular”. Dado que la anotación es, en la base, la especificación de las relaciones entre la información de un corpus y la información lingüística que lo describe, el desarrollo de tecnologías como el Marco de Descripción de Recursos (RDF) puede tener un impacto significativo en la forma en que se asocian las anotaciones con los recursos lingüísticos primarios en el futuro.
📬Si este tipo de historias es justo lo que buscas, y quieres recibir actualizaciones y mucho contenido que no creemos encuentres en otro lugar, suscríbete a este substack. Es gratis, y puedes cancelar tu suscripción cuando quieras: Qué piensas de este contenido? Estamos muy interesados en conocer tu opinión sobre este texto, para mejorar nuestras publicaciones. Por favor, comparte tus sugerencias en los comentarios. Revisaremos cada uno, y los tendremos en cuenta para ofrecer una mejor experiencia.Una segunda actividad dentro de la comunidad de la web semántica que tiene ramificaciones tanto en la anotación como en el análisis de los datos lingüísticos es el desarrollo de tecnologías para apoyar la especificación de la información ontológica y el acceso a ella. Las ontologías, que proporcionan información a priori sobre las relaciones entre las categorías de datos, permiten aplicar procesos de inferencia que pueden aportar información que no está explícita en los propios datos. Por ejemplo, para analizar correctamente una frase como “Me comí un pescado con un tenedor” -es decir, para unir la frase preposicional “con un tenedor” al verbo “comer” y no como modificador de “pescado”- podemos comprobar una ontología que especifica que “tenedor” ES UNA subclase de “instrumento”, y que “comer” tiene una relación USES-A con cosas del tipo “instrumento”. De forma más general, podemos identificar el tema de un documento determinado consultando una ontología. Por ejemplo, la ontología puede especificar que la palabra “banco” puede representar una subclase de “institución financiera” o “formación geológica”; si el documento contiene varias otras palabras que también están relacionadas con “institución financiera”, como “dinero”, “cuenta”, etc., podemos concluir que el documento tiene a las instituciones financieras como uno de sus temas (y, como efecto secundario, que la palabra “banco” se está utilizando en ese sentido en este documento).
Para poder explotar la información ontológica, ésta debe ser creada y almacenada de forma universalmente accesible. El grupo del W3C que desarrolla el Lenguaje Web Ontológico (OWL) proporciona un formato de representación estándar. Ahora corresponde a la comunidad lingüística computacional instanciar la información ontológica pertinente y utilizarla para anotar y analizar datos lingüísticos. De hecho, el desarrollo y el uso de ontologías forma parte del campo desde hace varios años; en concreto, la ontología del léxico WordNet se ha utilizado ampliamente para la anotación y el análisis de datos lingüísticos. Las tecnologías de la web semántica permitirán el desarrollo de información ontológica común y universalmente accesible.
Datos verificados por: Brooks
Recursos
[rtbs name=”informes-jurídicos-y-sectoriales”][rtbs name=”quieres-escribir-tu-libro”]Véase También
Antropología Lingüística, Cuestiones Éticas, Documentación Lingüística, Etimología, Etnografía, Etnolingüística, Fonología, Lenguas amenazadas, Lexicografía, pedagogía,
▷ Esperamos que haya sido de utilidad. Si conoces a alguien que pueda estar interesado en este tema, por favor comparte con él/ella este contenido. Es la mejor forma de ayudar al Proyecto Lawi.