▷ Sabiduría semanal que puedes leer en pocos minutos. Añade nuestra revista gratuita a tu bandeja de entrada. Lee gratis nuestras revistas de Derecho empresarial, Emprender, Carreras, Liderazgo, Dinero, Startups, Políticas, Ecología, Ciencias sociales, Humanidades, Marketing digital, Ensayos, y Sectores e industrias.

Diccionarios Léxico-Semánticos

▷ Lee Gratis Nuestras Revistas

Diccionarios Léxico-Semánticos

Este elemento es una ampliación de los cursos y guías de Lawi. Ofrece hechos, comentarios y análisis sobre este tema. [aioseo_breadcrumbs] Véase más información en Diccionarios Conceptuales, Diccionarios Sistemáticos, Diccionarios Ideológicos. Véase también el Diccionario Ideológico de Casares, como uno de los mejores ejemplos. Y el Diccionario de uso del español (actual y de María Moliner). Ver también el Diccionario Ideológico de Vox.

Diccionarios Léxico-Semánticos y Procesamiento de lenguajes naturales (PNL, por sus siglas en inglés)

En esta sección se ofrece una visión general de una variedad de recursos que contienen información semántica léxica. Hay muchos más recursos disponibles, pero aquí solo describimos una selección que ilustra los diferentes tipos de recursos, y que se centra en el uso de estos recursos para la PNL. La selección cubre: diccionarios tradicionales de lectura automática, redes de palabras, taxonomías, diccionarios con clasificaciones de características, flexicones de MT, bases de conocimiento léxico formalizadas para PNL, recursos para sistemas expertos, diccionarios bilingües tradicionales. No es fácil dividir los recursos léxicos en grupos más globales porque cada recurso a menudo contiene diferentes mezclas de datos. Por ejemplo, parece obvio agrupar el Princeton WordNet1.5 con los datos de EuroWordNet como redes semánticas pero EuroWordNet también contiene relaciones de equivalencia, lo que lo convierte en un recurso multilingüe, e incorpora una ontología formalizada, convirtiéndolo en parte en una base de conocimiento conceptual. De manera similar, podríamos hacer una división entre los recursos tradicionales como el Longman Dictionary of Contemporary English (LDOCE) y los recursos léxicos desarrollados para propósitos de PNL, pero LDOCE incluye un sistema de características (tanto sintácticas como semánticas) que lo hacen muy útil como recurso de PNL, como se ha demostrado a menudo.

Una Conclusión

Por lo tanto, proporcionamos algunas agrupaciones cuando es obvio, pero también discutimos los recursos de forma individual, sin sugerir sin embargo una diferencia en la relevancia o en el detalle.

Para cada uno de estos recursos damos una descripción del contenido semántico, tanto en términos de cantidad como de tipo de datos. Donde sea posible describiremos los valores semánticos más frecuentes. Estos pueden ser los niveles superiores de las jerarquías, las definiciones de características y conceptos, o las definiciones de relaciones.

Otros Elementos

Además, proporcionaremos referencias a las nociones semánticas léxicas descritas en la sección anterior y al uso de los recursos en PNL.

El diccionario y tesauro Longman

El Diccionario Longman y el Léxico Longman de Inglés Contemporáneo (un tesauro que venía a sustituir y actualizar al de Roget, pero el conservadurismo inglés parece que lo evitó) se han utilizado ampliamente en la labor pionera de extraer los eléxicos de PNL de los diccionarios legibles por máquina. Muchas de las ideas para construir léxicos de PNL a gran escala se han basado en estudios de estos recursos. Debido a su antigüedad, su organización y estructuración todavía se basa en la práctica tradicional de hacer diccionarios, pero ciertas características los han hecho particularmente adecuados para derivar léxicos de PNL.

El Diccionario Longman de Inglés Contemporáneo

El Longman Dictionary of Contemporary English [Pro78] es un diccionario para estudiantes de tamaño medio: 45.000 entradas y 65.000 sentidos de las palabras.

Detalles

Las entradas se distinguen como homógrafos sobre la base del origen histórico de las palabras y su parte de habla, donde cada entrada puede tener uno o más significados. Las distribuciones de los sentidos de las entradas para las partes de oración principales son las que se muestran a continuación.

Número de entradas y sentidos en LDOCE, distribuidos por Entradas, Sentidos y Polisemia de forma correspondiente:

  • Sustantivos: 23800, 37500, 1.6
  • Verbos: 7921, 15831, 1.9
  • Adjetivos 6922, 11371, 1.6
  • Total: 38643, 64702,  1.7

La información proporcionada en las entradas comprende:

  • Definiciones utilizando un conjunto limitado de 2000 palabras de vocabulario controlado y 3000 palabras derivadas.
  • Ejemplos.
  • Información gramatical sobre la estructura constitutiva de la complementación de las palabras. LDOCE es conocido sobre todo por su codificación gramatical de alta calidad, sin embargo, dado que el foco está aquí en la semántica, no se especifican más aquí.
  • Etiquetas de uso en forma de códigos y comentarios, que cubren registro, estilo (11 códigos), dialecto (20 códigos) y restricciones de región (9 códigos).
  • Tema Códigos de campo y comentarios que indican el dominio de interés con el que se relaciona un significado.
  • Códigos semánticos que clasifican significados nominales o expresan restricciones selectivas para complementar significados verbales y adjetivos.

La mayor parte de la información se almacena en forma textual.

Puntualización

Sin embargo, los códigos de uso, el código de campo temático y los códigos semánticos se almacenan en forma de un sistema de códigos único.

Hay 100 códigos principales de campo temático que pueden subdividirse de la siguiente manera:

  • MD: médico
  • MDZA: anatomía médica
  • EN: ocupación
  • VH: Vehículos

Los Códigos de Campo Objeto han sido almacenados para el 30% de los sentidos del verbo y el 59% de los sentidos del sustantivo. Hay 100 campos principales y 246 subdivisiones. Dos campos principales también pueden ser combinados, MDON representa tanto la medicina como la ocupación.

En total, hay 32 códigos semánticos diferentes en LDOCE. Se puede hacer una distinción entre los códigos básicos (19 códigos) y los códigos que representan una combinación de un código básico (13 combinaciones):

  • A: Animal
  • B: Hembra Animal
  • C: Hormigón
  • D: Animal macho
  • E: Sólido o Líquido (no gas): S + L
  • F: Hembra Humana
  • G: Gas
  • H: Humano
  • I: Hormigón inanimado
  • J: Sólido móvil
  • K: Macho Animal o Humano = D + M
  • L: Líquido
  • M: Hombre Humano
  • N: No móvil Sólido
  • O: Animal o humano = A + H
  • P: Planta
  • Q: Animar
  • R: Hembra = B + F
  • S: Sólido
  • T: Resumen
  • U: Colectivo Animal o Humano = (Colectivo + O)
  • V: Planta o animal = (P + A)
  • W: Hormigón inanimado o abstracto = (T + I)
  • X: Abstracto o Humano = (T + H)
  • Y: Abstracto o Animado = (T + H)
  • Z: Sin marcar
  • 1: Humano o Sólido = (H + S)
  • 2: Abstracto o Sólido = (T + S)
  • 4: Resumen Físico
  • 5: Material Orgánico
  • 6: Líquido o abstracto = (L + T)
  • 7: Gas o Líquido = (G + L)

La mayoría de los sentidos de los sustantivos tienen un código semántico.Entre las Líneas En el caso de los sustantivos estos códigos pueden ser vistos como una clasificación básica del significado.Entre las Líneas En el caso de los verbos y adjetivos, sin embargo, los códigos indican restricciones de selección de sus argumentos. Estas restricciones de selección también se pueden deducir de sus definiciones en las que se han puesto entre paréntesis los constituyentes que se corresponden con los complementos de los verbos o adjetivos definidos.

El Léxico Longman del inglés contemporáneo (el Tesauro)

LLOCE, el Léxico Longman de Inglés Contemporáneo, es un diccionario de pequeño tamaño al estilo del estudiante, derivado en gran parte de LDOCE y organizado según principios semánticos. Un perfil cuantitativo de la información proporcionada se da de la siguiente forma:

  • Número de entradas: 16,000
  • Número de sentidos: 25,000
  • Campos semánticos (Códigos principales: 14; Códigos de grupo: 127; Códigos del set: 2441)
  • Códigos gramaticales: igual que LDOCE
  • Restricciones selectivas: igual que LDOCE
  • Dominio y registro de etiquetas: igual que LDOCE

La clasificación semántica en el LLOCE se articula en 3 niveles de conceptos cada vez más específicos representados como códigos mayores, de grupo y de conjunto, por ejemplo:

La vida y los seres vivos > Animales/Mamíferos > El gato y animales similares: gato, leopardo, león, tigre,…

Cada entrada está asociada a un código de conjunto, y se cruzan las relaciones de similitud semántica entre los códigos no expresados jerárquicamente.

Hay 14 códigos principales, 127 códigos de grupo y 2441 códigos de conjunto. La lista de códigos principales que se muestra a continuación proporciona una idea general de las áreas semánticas cubiertas:

La vida y los seres vivos
El cuerpo, sus funciones y el bienestar
La gente y la familia
Edificios, casas, el hogar, la ropa, las pertenencias y el cuidado personal
Comida, bebida y agricultura
Sentimientos, emociones, actitudes y sensaciones
Pensamiento y comunicación, lenguaje y gramática
H Sustancias, materiales, objetos y equipos
Artes y oficios, ciencias y tecnología, industria y educación
Los números, la medición, el dinero y el comercio
Entretenimiento, deportes y juegos
Espacio y tiempo
Movimiento, ubicación, viaje y transporte
Términos generales y abstractos

La lista de códigos de grupo y de conjunto para el dominio M (Movimiento, ubicación, viaje y transporte) que se presenta a continuación proporciona un ejemplo del grado de detalle utilizado en la clasificación semántica.

Códigos de grupo para el dominio de Movimiento, localización, viaje y transporte en LLOCE

Movimiento, llegada y salida
M 1 moviéndose, yendo y viniendo
M 2 (de una persona u objeto) no se mueve
M 3 impedir que una persona u objeto se mueva
M 4 saliendo y poniéndose en marcha
M 5 llegando, alcanzando y entrando
M 6 entrando y saliendo
M 7 bienvenida y reunión
M 8 bajando, bajando y saliendo
M 9 subiendo y subiendo
M 10 movimiento y movimiento
M 11 quedarse y parar
M 12 pasos, llegadas y salidas
M 13 ascendente, ascendente y descendente
M 14 en movimiento
M 15 no se mueve
M 16 moviéndose rápidamente
M 17 no se mueve rápidamente
M 18 velocidad
M 19 formas particulares de moverse
M 20 caminar de forma irregular, inestable, etc.
M 21 caminando suavemente, etc.
M 22 caminando con fuerza, etc.
M 23 caminando a lo largo y a lo ancho, etc.
M 24 corriendo y moviéndose rápidamente, etc.
M 25 corriendo y moviéndose ligera y rápidamente, etc.
M 26 arrastrándose y arrastrándose, etc.
M 27 holgazanería y rezagos, etc.
M 28 volando de varias maneras
Conducción y dirección M 29, etc.
M 30 yendo en bicicleta, etc.
M 31 moviéndose más rápido y más lento
M 32 que se detiene, se aleja, etc.
M 33 apurando y apurando
M 34 seguimiento, persecución y caza
M 35 escapando, etc.
M 36 cosas y personas perseguidas, etc.
M 37 evitar y esquivar
M 38 saliendo y abandonando
M 39 avanzando, etc.
M 40 tornear, torcer y doblar
M 41 fluyendo
M 42 de costa y deriva
M 43 rebotando y balanceándose
Poner y tomar, tirar y empujar
M 50 puesta y colocación
M 51 cargando, tomando y trayendo
M 52 envío y transporte
M 53 tomando, dirigiendo y escoltando
M 54 envío y retirada
M 55 mostrando y dirigiendo
M 56 de tracción
M 57 sacando
M 58 de empuje
Lanzamiento de M 59
M 60 tirando cosas y enviando cosas
M 61 extracción y retirada
M 62 pegar y calzar
M 63 cierre, clausura y sellado
M 64 fijación y bloqueo
M 65 apertura y desbloqueo
M 66 abierto y no abierto
Aperturas M 67
Viajes y visitas
M 70 de visita
M 71 invitando y convocando a la gente
M 72 Conocer a las personas y las cosas
M 73 visitando e invitando
M 74 de viaje
M 75 de viaje
M 76 personas que visitan y viajan
M 77 personas guiando y tomando
M 78 negocios de viajes
M 79 hoteles, etc.
M 80 en hoteles, etc.
M 81 personas en hoteles, etc.
M 82 en hoteles, viajes, etc.
M 83 en hoteles, viajes, etc.
Vehículos y transporte terrestre
M 90 transporte
M 91 vehículos en general
M 92 especial, usu más antiguo, tipos de vehículos
M 93 vehículos de motor más ligeros, etc.
M 94 vehículos de motor más pesados
Autobuses M 95, etc.
M 96 bicicletas y motocicletas, etc.
M 97 personas conduciendo vehículos, etc.
M 98 vehículos especiales más pequeños, etc.
M 99 vehículos para vivir en
M 100 partes de vehículos en el exterior
M 101 partes de vehículos en el interior
M 102 el chasis y el motor
M 103 partes de una bicicleta
M 104 relacionado con las motocicletas
M 105 garajes y servicios
Tranvías M 106
Ferrocarriles M 107
Trenes M 108
M 109 plazas relacionadas con los ferrocarriles, los viajes, etc.
M 110 personas que trabajan en los ferrocarriles, etc.
M 111 conduciendo y viajando en coche, etc.
M 112 choques y accidentes
Lugares
M 120 plazas y posiciones
M 121 espacio
M 122 bordes, límites y cenefas
M 123 barrios y entornos
M 124 en el país y en el extranjero
M 125 carreteras y rutas
M 126 calles y carreteras especiales en las ciudades
M 127 carreteras y calles especiales en el país
M 128 calles especiales en las ciudades
M 129 muy grandes carreteras modernas
M 130 sin entradas y sin salida
M 131 caminos y senderos
M 132 partes de carreteras, etc.
M 133 luces en las carreteras, etc.
M 134 curvas y baches, etc.
M 135 intersecciones y desvíos
M 136 puentes y túneles
Envío
M 150 barcos
M 151 barcos en general
M 152 tipos de barcos más pequeños
M 153 tipos de veleros más grandes
Barcos con motor M 154
El M 155 navega con usos especiales
M 156 buques mercantes, etc.
M 157 partes de barcos
M 158 posiciones en los barcos, etc.
M 159 puertos y patios
M 160 muelles y dársenas
Faro M 161, boyas, etc.
M 162 tripulaciones
M 163 marineros, etc.
Oficiales del buque M 164, etc.
M 165 de amarre y atraque
M 166 izando velas
M 167 remos y palas
M 168 flotante y de hundimiento, etc.
M 169 demolición y abandono, etc.
Aviones
Aviones M 180 y aviación
Aviones de reacción M 181
M 182 globos, etc.
Helicópteros M 183
M 184 naves espaciales
M 185 aeropuertos
M 186 partes de aeronaves
M 187 aterrizando y despegando
M 188 aterrizando y despegando
M 189 personas trabajando en y con los aviones
Ubicación y dirección
M 200 superficies y cantos
M 201 posiciones superiores e inferiores en objetos, espacio, etc.
M 202 anverso, reverso y laterales
M 203 sobre y alrededor, etc.
M 204 en, dentro, en, etc.
M 205 fuera, de, etc.
M 206 aquí y no aquí
M 207 a través, a través de, etc.
M 208 contra
M 209 cerca de
M 210 lejos
M 211 entre y entre
M 212 a distancia y aparte
M 213 atrás y a un lado
M 214 hacia y desde
M 215 de un lugar a otro
M 216 en adelante
M 217 off
M 218 debajo, debajo y debajo de
M 219 por encima y por encima de
M 220 después y detrás
M 221 delante, antes y delante
M 222 a través y por medio de
M 223 pasado y más allá
M 224 arriba
M 225 abajo

Comparación con otras bases de datos léxicas

LDOCE es un diccionario tradicional de lectura mecánica.

Puntualización

Sin embargo, debido a su vocabulario controlado, la codificación sistemática de la información y el uso elaborado de los códigos ha sido un punto de partida muy útil para derivar léxicos básicos de PNL. El Diccionario de la PNL ofrece una amplia descripción de las posibilidades de elaboración. (Tal vez sea de interés más investigación sobre el concepto). Excepto por las características semánticas, LDOCE no contiene jerarquías semánticas completas como en WordNet, EDR u otras ontologías.

Basado en la experiencia de varios autores, mis opiniones, perspectivas y recomendaciones se expresarán a continuación (o en otros lugares de esta plataforma, respecto a las características en 2026 o antes, y el futuro de esta cuestión):

El nivel inferior del clustering de sentido de las palabras en LLOCE consiste en conjuntos de palabras semánticamente relacionadas que no tienen por qué ser sinónimos. Por ejemplo, el conjunto D172 (baños y duchas) contiene sustantivos como baño, afeitado, ducha. Esto contrasta con las bases de datos léxicas como WordNet donde los synsets están pensados para contener sentidos de palabras sinónimas.

Otra diferencia con WordNet se refiere a la organización taxonómica.Entre las Líneas En Wordnet, las relaciones jerárquicas se codifican principalmente como enlaces hip(er)onímicos que forman cadenas de synsets cuya longitud puede variar considerablemente.Entre las Líneas En LLOCE solo hay tres niveles y una considerable cantidad de referencias cruzadas.

Otros Elementos

Además, solo las hojas terminales de la taxonomía LLOCE corresponden a sentidos de la palabra reales; las etiquetas asociadas a los niveles intermedios (códigos principales, de grupo y de conjunto) son abstracciones sobre conjuntos de sentidos de la palabra semánticamente relacionados, al igual que los “conceptos intermedios” utilizados en el EDR (el EDR es un diccionario electrónico de inglés y japonés; está compuesto por cinco tipos de diccionarios).

Relaciones con las nociones de semántica léxica

Los códigos semánticos de los sustantivos en LDOCE representan una clasificación muy mínima y poco profunda. La clasificación de LLOCE es más elaborada pero aún no es muy profunda. Esta información de clasificación es similar a los modelos taxonómicos.

LLOCE además combina el formato de entrada de LDOCE, que provee información sintáctica detallada (en forma de códigos gramaticales) con la estructura semántica de un tesauro. Esta combinación es particularmente adecuada para relacionar las propiedades sintácticas y semánticas de las palabras y, en particular, para individualizar las dependencias entre las clases de predicados semánticos y los marcos de subcategorización como se describe en §2.4.

Usos

LDOCE ha sido muy útil como léxico sintáctico para el análisis sintáctico. El uso de LDOCE como recurso semántico no está tan extendido como cabría esperar. Esto se debe principalmente a su restringida disponibilidad y al hecho de que aún requiere un considerable procesamiento para derivar un léxico de PNL de cobertura completa a partir de él.

Revisor: Lawrence

Recursos

[rtbs name=”informes-jurídicos-y-sectoriales”][rtbs name=”quieres-escribir-tu-libro”]

Véase También

Lenguaje natural
Puntuación automática de ensayos
Minería de textos biomédicos
Tratamiento de término compuesto
Lingüística computacional
Revisión asistida por ordenador
Lenguaje natural controlado
Aprendizaje profundo
Procesamiento lingüístico profundo
Semántica distributiva
Ayuda para la lectura de idiomas extranjeros
Ayuda a la escritura (su redacción) en lengua extranjera
Extracción de información
Recuperación de la información
Lenguaje y Tecnologías de la Comunicación
Tecnología del lenguaje
Indexación de la semántica latente
Identificación de la lengua materna
Programación en lenguaje natural
Búsqueda en lenguaje natural
Ampliación de la consulta
Reificación (lingüística)
Procesamiento del habla
Sistema de diálogo hablado
Impermeabilización de textos
Simplificación del texto
Transformador (modelo de aprendizaje de máquina)
Truecasing
Respuesta a las preguntas
Word2vec

📬Si este tipo de historias es justo lo que buscas, y quieres recibir actualizaciones y mucho contenido que no creemos encuentres en otro lugar, suscríbete a este substack. Es gratis, y puedes cancelar tu suscripción cuando quieras:

Qué piensas de este contenido? Estamos muy interesados en conocer tu opinión sobre este texto, para mejorar nuestras publicaciones. Por favor, comparte tus sugerencias en los comentarios. Revisaremos cada uno, y los tendremos en cuenta para ofrecer una mejor experiencia.

Bibliografía

ALVAR EZQUERRA, M. (1995): Diccionario ideológico de la lengua española, Barcelona: Bibliograf.
AMARA SIMHA y RICE, B. L. (1988): The Amara Kosha of Amara Simha, New Delhi: Asian Educational Services.
BECERRA HIRALDO, J. M. (1996): “Diccionario temático del español. Propuesta”, EA, 65, 5-24.
BECERRA HIRALDO, J. M. (1998): “Diccionario temático del español. Método y resultados”, en G. Wotjak (coord.), Teoría del campo y semántica léxica, Frankfurt am Main: Peter Lang, 311-333.
CASARES, J. (1959): Diccionario ideológico de la Lengua Española, Barcelona: Gustavo Gili.
CORRIPIO, F. (1985): Diccionario de ideas afines, Barcelona: Herder. MCARTHUR, T. (1981): Longman Lexicon of Contemporary English, Londres: Longman.
MOLINER, M. (1998): Diccionario de uso del español, Madrid: Gredos. MORAL, R. del (1999): Diccionario temático del español, Madrid: Verbum. PÊCHOIN, D. (1995): Thesaurus. Des idées aux mots, des mots aux idées, París: Larousse.
POLLUX, J. (1900 y 1931): Pollucis onomasticon, editado por E (examine más sobre todos estos aspectos en la presente plataforma online de ciencias sociales y humanidades). Bethe, Leipzig: Teubner, 2 vols.
PORTO DAPENA, J. A. (2002): Manual de técnica lexicográfica, Madrid: Arco/Libros.
RAE (2003): Diccionario de la lengua española, Madrid: Espasa Calpe. ROGET, P. M. (2002): Roget’s Thesaurus of English Words and Phrases, Londres: Penguin Books.
SAIAJOVA, L. G.; JASAIOVA, D. M. y MORKOVKIN, B (examine más sobre todos estos aspectos en la presente plataforma online de ciencias sociales y humanidades). B. (2000): Tematichekii slovar russkogo iasika (Diccionario temático de la lengua rusa), Moscú: Isdatelstvo.
SPITZER C. (1952): Dicionário analógico da língua portuguesa, Porto Alegre: Livraia do Globo.
VV.AA. (2005): Petit Larousse, París: Larousse.

▷ Esperamos que haya sido de utilidad. Si conoces a alguien que pueda estar interesado en este tema, por favor comparte con él/ella este contenido. Es la mejor forma de ayudar al Proyecto Lawi.
▷ Lee Gratis Nuestras Publicaciones
,Si este contenido te interesa, considera recibir gratis nuestras publicaciones por email de Derecho empresarial, Emprender, Dinero, Políticas, Ecología, Carreras, Liderazgo, Ciencias sociales, Derecho global, Marketing digital y SEO, Inversiones y startups, Ensayos, Humanidades, y Sectores económicos, en Substack.

Foro de la Comunidad: ¿Estás satisfecho con tu experiencia? Por favor, sugiere ideas para ampliar o mejorar el contenido, o cómo ha sido tu experiencia:

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

▷ Recibe gratis nuestras revistas de Derecho empresarial, Emprender, Carreras, Dinero, Políticas, Ecología, Liderazgo, Marketing digital, Startups, Ensayos, Ciencias sociales, Derecho global, Humanidades, y Sectores económicos, en Substack. Cancela cuando quieras.

Descubre más desde Plataforma de Derecho y Ciencias Sociales

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo