Recuperación de Información en las Bibliotecas Digitales
Este elemento es una ampliación de los cursos y guías de Lawi. Ofrece hechos, comentarios y análisis sobre la “Recuperación de Información en las Bibliotecas Digitales”.
[aioseo_breadcrumbs]En inglés: Information Retrieval in Digital Libraries.
Las Bibliotecas Digitales
Según la Federación de Bibliotecas Digitales (DLF), las bibliotecas digitales son organizaciones que proporcionan los recursos, incluido el personal especializado, para seleccionar, estructurar, ofrecer acceso intelectual, interpretar, distribuir, preservar la integridad y asegurar la persistencia a lo largo del tiempo de las colecciones de obras digitales, de modo que estén disponibles de forma fácil y económica para su uso por una comunidad o conjunto de comunidades definidas. El DLF es un consorcio de bibliotecas y organizaciones que tratan de identificar normas y prácticas óptimas, coordinar la investigación y el desarrollo en este campo e iniciar proyectos de cooperación (diglib.org/dlfhomepage.htm). El DLF tiene treinta y siete socios, muchos de los cuales son bibliotecas de colegios y universidades.
Recuperación de Información en las Bibliotecas Digitales
Una biblioteca digital permite a los usuarios interactuar eficazmente con la información distribuida a través de una red. Estos sistemas de información en red permiten la búsqueda y visualización de artículos de colecciones organizadas.Entre las Líneas En la evolución histórica de las bibliotecas digitales, los mecanismos de recuperación de la literatura científica han sido particularmente importantes. Las grandes visiones de 1960 condujeron por primera vez al desarrollo de la búsqueda de textos, desde las bases de datos bibliográficas hasta la recuperación de textos completos. Luego, los prototipos de investigación catalizaron el auge de la búsqueda de documentos, desde la navegación multimedia a través de redes de área local hasta la búsqueda distribuida en Internet.Entre las Líneas En el siglo XXI, esas visiones se hicieron realidad, con la búsqueda conceptual que permite la recuperación semántica a través de grandes colecciones.
El acceso inmediato a toda la literatura científica ha sido durante mucho tiempo un sueño de los científicos. Los sistemas de información en red necesarios para apoyar ese acceso han mejorado constantemente a medida que la infraestructura informática y de comunicaciones subyacente ha mejorado. La reciente llegada de los buscadores de la World Wide Web y las bibliotecas digitales ha reavivado el interés popular por estos temas.
Puntualización
Sin embargo, los problemas y los componentes han permanecido relativamente inalterados desde los primeros días de la recuperación de información. (Tal vez sea de interés más investigación sobre el concepto). Así pues, la comprensión de la evolución de la tecnología de búsqueda en la red situará a estos sistemas en su contexto histórico adecuado y ayudará a comprender su futuro.
Las colecciones organizadas de materiales científicos se denominan tradicionalmente “bibliotecas”, y las versiones de éstas que pueden buscarse en línea se denominan “bibliotecas digitales”. La finalidad principal de las bibliotecas digitales es permitir la búsqueda de colecciones electrónicas distribuidas en redes, en lugar de limitarse a crear depósitos electrónicos a partir de materiales físicos digitalizados. Tradicionalmente, la recuperación de información ha sido una tarea de los bibliotecarios profesionales. Los bibliotecarios de referencia capacitados interactúan con los servicios en línea de materiales especializados e informan de los resultados a los científicos que realizan las consultas. Aunque las redes informáticas públicas se han utilizado durante mucho tiempo para acceder a servicios de información especializados, ha sido necesario el reciente auge de Internet para que la búsqueda de literatura esté directamente al alcance de amplios grupos de científicos.
Desde los comienzos de la recuperación de información en línea, en los años 70, la funcionalidad básica ha permanecido esencialmente inalterada. Se mantiene e indexa una colección de literatura, a la que el usuario accede mediante una terminal conectada a un servidor a través de una red. El usuario especifica una consulta por un conjunto de palabras, y se devuelven todos los documentos de la colección que contienen esas palabras. La tecnología fundamental para la búsqueda de grandes colecciones está cambiando finalmente, de modo que la recuperación de información en el próximo siglo será mucho más semántica que sintáctica, buscando conceptos en lugar de palabras.
Hoy en día, la recuperación de información en línea disponible con los buscadores de Internet permite la interacción con las fuentes de información distribuidas a través de la red internacional. La funcionalidad ha cambiado drásticamente desde la anterior generación de resúmenes de texto recuperados mediante terminales públicos de propósito especial desde un único gran centro informático central hasta la actual generación de documentos multimedia recuperados mediante ordenadores personales de propósito general desde múltiples pequeños servidores de archivos distribuidos. Los principales usuarios han cambiado en consecuencia de bibliotecarios a científicos.
Para apoyar la recuperación por coincidencia de palabras (encontrar todos los documentos que contengan la palabra “fibra”), se construye un índice de lista invertida.
Informaciones
Los documentos se escanean en busca de palabras, omitiendo algunas palabras de ruido (como “el” y “de”), y se construye una lista para cada palabra. Estas listas se denominan “invertidas” porque para cada palabra contienen punteros a los documentos que contienen esa palabra. El índice consiste en las listas invertidas en orden alfabético por palabra. Se puede utilizar para la búsqueda rápida de una palabra específica escaneando el índice para esa palabra y luego utilizando los punteros de los documentos adjuntos para recuperar los documentos coincidentes.Entre las Líneas En esta búsqueda de coincidencia de palabras se suele utilizar la palabra “stemming” para aumentar la eficacia de su recuperación: Las palabras se reducen a una forma canónica, de modo que, por ejemplo, “comput” representa “computadora”, “ordenadores” e “informática”. Si se especifican varias palabras, se pueden fusionar los conjuntos de documentos resultantes (el AND lógico da lugar a una intersección; el O da lugar a la unión).
A medida que las computadoras se volvieron más poderosas, la escala de documentos para la recuperación de información se hizo mayor. Es decir, a medida que se hizo tecnológica y económicamente factible proporcionar redes más rápidas y discos más grandes, se hizo posible almacenar y recuperar más que una simple cita.Entre las Líneas En primer lugar, se añadió el resumen, y este es el nivel económico que hoy en día sigue siendo el estándar de la literatura científica. Luego, los terminales de vídeo se convirtieron en el modo de visualización, de modo que el texto podía ser visto más rápidamente que con los teletipos. Esto llevó a la extensión de los resúmenes al llamado “texto completo”. Un artículo de texto completo en línea contiene todas las palabras dentro de un artículo pero excluye materiales no textuales como figuras, tablas y ecuaciones.
La tecnología de búsqueda también aumentó en alcance mientras se mantuvo fundamentalmente igual en función. (Tal vez sea de interés más investigación sobre el concepto). Debido a que ahora hay un artículo completo en lugar de un resumen, hay más palabras por documento. Así, las palabras individuales se volvieron menos discriminatorias en las búsquedas, y las frases se volvieron más útiles. Internamente, este cambio de enfoque implicó que los operadores booleanos se volvieran menos útiles.
Búsqueda de documentos: Navegación Multimedia
En el decenio de 1980, la búsqueda de texto completo se había establecido comercialmente en los sistemas de recuperación en línea.Entre las Líneas En esta misma época se produjo el despliegue inicial de estaciones de trabajo personales con mapas de bits y redes de área local en los laboratorios de investigación. (Tal vez sea de interés más investigación sobre el concepto). Esta tecnología permitió dar una nueva funcionalidad a las ideas establecidas de búsqueda de texto, sobre todo en las áreas de documentos multimedia y navegación distribuida.
A medida que el modelo de computadora pasó de los ordenadores centrales compartidos a las estaciones de trabajo personales distribuidas, cambió profundamente la recuperación de información de la búsqueda de texto a la búsqueda de documentos. A medida que las estaciones de trabajo de investigación del decenio de 1980 se convirtieron en las computadoras personales del decenio de 1990 y se generalizó el acceso a Internet, los sistemas de investigación del decenio de 1980 basados en la tecnología de texto completo se convirtieron en los servicios de Internet del decenio de 1990. Así pues, la búsqueda de texto completo junto con la navegación multimedia estaba en los años 90 a disposición de los científicos medios para sus necesidades cotidianas.
El aumento de la velocidad tanto de las estaciones de trabajo como de las redes trajo consigo una expansión tanto del documento básico como de la recuperación básica. Poco a poco se fue haciendo posible el uso de multimedia, de manera que los materiales pictóricos, como gráficos, imágenes y vídeos, podían incluirse en los documentos y accederse a ellos desde las colecciones de toda la red. Por ejemplo, la visualización interactiva de imágenes en color de fuentes remotas se hizo tecnológicamente factible.
El aumento de la velocidad en toda la red significó que se podían buscar múltiples fuentes en una sola consulta, manteniendo al mismo tiempo una interacción eficaz con el usuario para la devolución de los resultados. Se podían almacenar múltiples colecciones en lugares físicamente distribuidos, pero se podían buscar como una sola colección lógicamente coherente. Se trataba de una realización interactiva de la tecnología de pasarela de información transparente iniciada en el decenio de 1970 (18) y comercializada en el decenio de 1980 (19).Entre las Líneas En el nuevo entorno informático, las velocidades de la red permitieron que la federación entre las fuentes se hiciera de manera dinámica.
Más profundamente, con el aumento de las velocidades se hizo posible un estilo diferente de interacción. (Tal vez sea de interés más investigación sobre el concepto).Entre las Líneas En lugar de la búsqueda, en la que se hace una consulta detallada y se obtienen resultados completos, la navegación permite utilizar consultas amplias para buscar rápidamente las secciones adecuadas de una biblioteca digital. Este estilo se asemeja al uso del catálogo de tarjetas para localizar una sección particular de una biblioteca física, y luego a la navegación por esas estanterías en busca de materiales adecuados. El mecanismo de búsqueda subyacente es la misma -proximidad de texto completo- pero cualquier resultado que se obtenga puede ser escaneado mucho más rápidamente. Este enfoque cambia el carácter de la interacción de una búsqueda exacta en la base de datos a una navegación suelta que intenta identificar un conjunto de materiales deseados. Cuando los elementos distribuidos se enlazan entre sí, la navegación adquiere el carácter de “salto” de un documento a otro.
El estilo de navegación multimedia combinado con la búsqueda distribuida es el tema principal de los servicios de información en Internet hoy en día. Sus antecedentes históricos se encuentran en los sistemas de investigación del decenio anterior.
Revisor: Lawrence
Contenidos de Multimedia y Streaming
Tanto el proxy caching (véase más detalles) como el CDN (véase más detalles) exploran la localización temporal y geográfica de los intereses de los usuarios en los objetos de los medios de comunicación. (Tal vez sea de interés más investigación sobre el concepto). Véase más al respecto en la entrada sobre el Vídeo bajo Demanda en la Distribución de Contenidos (Transmisión/Multidifusión) y Streaming en multimedia (incluido Streaming de Vídeo P2P).
Recuperación basada en el contenido en las bibliotecas digitales
Sabemos muy bien que los navegadores de Internet tienen un botón de búsqueda de contenido multimedia (normalmente imágenes o vídeo para YouTube y sus competidores), en lugar de texto. Para la pintura de Bosch, una búsqueda basada en texto muy probablemente hará el mejor trabajo, si deseamos encontrar esta imagen en particular.
Puntualización
Sin embargo, podemos estar interesados en búsquedas bastante generales, digamos para escenas con cielos azul profundo y atardeceres anaranjados. Precalculando algunas estadísticas fundamentales sobre las imágenes almacenadas en una base de datos, normalmente podemos encontrar escenas simples como estas.
En sus inicios, la recuperación de las bibliotecas digitales comenzó con ideas tomadas de las disciplinas tradicionales de recuperación de información. (Tal vez sea de interés más investigación sobre el concepto). Esta línea de investigación continúa.
Sin embargo, muchos esquemas de recuperación multimedia se han movido hacia un enfoque que favorece el contenido multimedia en sí mismo, ya sea sin tener en cuenta o depender de la información textual que lo acompaña, o por lo menos la búsqueda basada en texto reforzada con pruebas multimedia. Esto se conoce comúnmente como CBIR (Recuperación de imágenes basada en el contenido). Sólo recientemente se ha vuelto a prestar atención al problema más profundo de abordar el contenido semántico de las imágenes, por supuesto utilizando también el texto de acompañamiento (posiblemente insertado cuando se archivan los medios). Si los datos consisten en características estadísticas construidas a partir de objetos en imágenes y también en texto asociado (véase qué es, su concepto jurídico; y también su definición como “associate” en derecho anglo-sajón, en inglés) a las imágenes, cada tipo de modalidad -texto e imagen- proporciona contenido semántico omitido de la otra. Por ejemplo, una imagen de una rosa roja normalmente no tendrá la palabra clave “rojo” añadida manualmente, ya que esto se supone generalmente.
Una Conclusión
Por lo tanto, las características de la imagen y las palabras asociadas pueden desambiguarse entre sí.
Búsqueda visual móvil de calidad
Con la creciente popularidad de los teléfonos móviles y las tabletas, la Búsqueda Visual Móvil ha atraído un creciente interés en el campo de la recuperación de imágenes basada en el contenido (CBIR).Entre las Líneas En esta sección, se describe un novedoso marco para la calidad de la CBIR móvil.Entre las Líneas En el lado del cliente móvil, una imagen de consulta se comprime hasta un cierto nivel de calidad para adaptarse a las condiciones de la red y luego se carga en un servidor con su nivel de calidad transferido como información lateral.Entre las Líneas En el lado del servidor, se extrae un conjunto de características de la imagen de consulta y luego se compara con las características de las imágenes de la base de datos. A medida que la eficacia de las diferentes características cambia en función de la calidad de la consulta, aprovechamos la información lateral sobre la calidad de la consulta para seleccionar una función de similitud específica de la calidad que se aprende fuera de línea mediante un método de máquina vectorial de apoyo (SVM).
La Búsqueda visual móvil permite a las personas buscar productos visualmente similares o encontrar información sobre películas o CD en línea iniciando una solicitud de búsqueda desde un teléfono con cámara. Dependiendo de la parte de la búsqueda visual que se realice en los dispositivos móviles, existen varias arquitecturas posibles de cliente-servidor:
- Una imagen de consulta se transmite al servidor, y luego la extracción y recuperación de características se hacen en el servidor.
- El cliente móvil extrae algunas características de la imagen de consulta y sube solo las características al servidor. La recuperación se realiza en el servidor.
- El cliente móvil mantiene un caché de la base de datos de imágenes. La recuperación se realiza localmente en el cliente. Sólo si no se encuentra ninguna coincidencia, el cliente envía una consulta al servidor.
En cada caso, el rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) del sistema está limitado por el ancho de banda, el cálculo, la memoria y la potencia de los dispositivos móviles. Recientemente, se ha trabajado en el diseño de descriptores compactos para la búsqueda visual. Un trabajo representativo es el descriptor del Histograma Comprimido de Gradientes (CHoG) propuesto por Chandrasekhar y otros [47], que ha demostrado ser altamente discriminatorio a una tasa de bits baja.
Otros Elementos
Además, desde 2011 el comité del MPEG ha realizado un trabajo exploratorio para definir un estándar para las aplicaciones de búsqueda visual. Esta iniciativa de estandarización se denomina “Descriptores Compactos para Búsqueda Visual (CDVS)”.
Es evidente que un descriptor de baja tasa de bits puede dar lugar a una latencia de transmisión más corta, una menor sobrecarga de memoria y una coincidencia potencialmente más rápida.
Una Conclusión
Por lo tanto, las tres arquitecturas cliente-servidor de búsqueda visual móvil mencionadas anteriormente pueden beneficiarse del avance de la tecnología de descriptores compactos.
Observación
Además de la gran cantidad de esfuerzos de investigación dedicados al diseño de descriptores visuales, los métodos de fusión para la búsqueda visual también han atraído mucha atención en la comunidad CBIR. Dado que un descriptor es un conjunto de características de una imagen, como el color, la forma y la textura, las técnicas de fusión han demostrado ser eficaces para reducir la brecha semántica de la recuperación de imágenes basada en la similitud de las características.
(La brecha digital se refiere a las disparidades en el acceso a la tecnología de la información según el país de residencia, el sexo, los ingresos o la raza. Dentro de un mismo país, los residentes con estudios, ingresos altos y urbanos suelen tener mejor acceso a la tecnología. También existen diferencias entre países y regiones del mundo, en gran parte como resultado de los limitados recursos de los países en desarrollo, lo que se conoce como la brecha digital global. Las barreras al uso de la tecnología también pueden ser culturales y lingüísticas: por ejemplo, el inglés es el idioma predominante en Internet, aunque las tecnologías ya pueden manejar otros idiomas de uso generalizado.)
Aquí, esbozamos, por ejemplo, uno de los marcos para la búsqueda visual móvil utilizando una arquitectura cliente-servidor. Específicamente, una imagen de consulta se comprime a un cierto nivel de calidad en el cliente móvil y luego se sube al servidor con su nivel de calidad transmitido como información lateral al mismo tiempo. A continuación se realiza en el servidor un algoritmo de recuperación dependiente de la calidad de la consulta basado en la fusión de múltiples características. Las motivaciones para proponer, por algunos investigadores, un marco de este tipo son las siguientes:
Basado en la experiencia de varios autores, mis opiniones, perspectivas y recomendaciones se expresarán a continuación (o en otros lugares de esta plataforma, respecto a las características en 2026 o antes, y el futuro de esta cuestión):
Aunque la capacidad de cálculo de los dispositivos móviles se ha ido haciendo cada vez más potente, la realización de la extracción de descriptores en el servidor presenta varias ventajas. Ciertamente, elimina el tiempo de espera causado por la computación de los descriptores en un dispositivo móvil de recurso computacional limitado. Y lo que es más importante, habida cuenta de los abundantes recursos informáticos del servidor, reduce en gran medida la rigurosa limitación de la complejidad y el uso de la memoria de los descriptores, lo que hace que un método de fusión sea factible desde el punto de vista informático en este marco.
Como el ancho de banda es también una preocupación importante para la búsqueda visual en las redes inalámbricas, el marco permite al cliente comprimir una imagen de consulta a una cierta velocidad de bits para acomodar la condición de la red.
Dado que un descriptor específico no es igualmente importante para las imágenes de diferentes niveles de calidad, la información lateral sobre la calidad de la consulta podría aprovecharse para mejorar el rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de la recuperación del método de fusión.
Datos verificados por: Marc
Cuantificación de los resultados de la búsqueda
En general, es deseable alguna expresión simple del rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de los motores de búsqueda de imágenes.Entre las Líneas En la recuperación de información, la precisión es el porcentaje de documentos pertinentes recuperados en comparación con el número de todos los documentos recuperados, y la recuperación es el porcentaje de documentos pertinentes recuperados de todos los documentos pertinentes. Recall y Precision se utilizan ampliamente para informar sobre el rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de la recuperación de los sistemas de recuperación de imágenes también.
Puntualización
Sin embargo, estas medidas se ven afectadas por el tamaño de la base de datos y la cantidad de información similar en la base de datos.
Otros Elementos
Además, no tienen en cuenta las coincidencias difusas ni el orden de los resultados de la búsqueda.
En general, cuanto más relajamos los umbrales y permitimos que se devuelvan más imágenes, menor es la precisión, pero mayor es el recuerdo; y viceversa. Aparentemente, no tiene mucho sentido hablar del número de Precisión o de Recall por sí mismo.
Indicaciones
En cambio, pueden combinarse para proporcionar una buena medida, por ejemplo, la Precisión cuando la Recall está al 50%, la Recall cuando la Precisión está al 90%, etc. Cuando hay múltiples consultas involucradas, los números de los valores de Precisión y Recall aumentarán de nuevo.
Datos verificados por: Marc
Recursos
[rtbs name=”informes-jurídicos-y-sectoriales”][rtbs name=”quieres-escribir-tu-libro”]Véase También
- Acceso a la información
- Confidencialidad
- Difusión restringida
- Retraso digital
- Cultura digital
- Ciencia de la información
- Sistema de información
- Sistema de comunicación
- Correos y telecomunicaciones
- Informática documental
- Biblioteca
- Bibliografía
- Oficina de información
- Información
- Discoteca
- Disco
- Archivo
- Documento
- Archivo digital
- Centro de documentación
- Documentación
- Ludoteca
- Juego
- Usuario de información
- Acceso a la información
- Videoteca
- Videodisco
- Videocasete
- Mediateca
- Material audiovisual
- Material de enseñanza
Booru
Visión por ordenador
La indexación de imágenes basada en el concepto
Recuperación de imágenes basadas en el contenido (CBIR)
Gestión de activos digitales
Base de datos bibliográfica
Federación de Bibliotecas Digitales
Criterios de selección de las colecciones digitales
Desarrollo de la biblioteca digital
Humanidades digitales
Base de datos de texto completo
Biblioteca móvil
Enciclopedia en línea
Biblioteca ambulante
Edición de imágenes digitales
Organizador de imágenes
Procesamiento de la imagen
Recuperación de información
Recuperación de información multimedia
VisualRank
Bibliotecas digitales, Ciencias de la computación, Procesamiento de imágenes, Redes de comunicación, Almacenamiento de Información, Recuperación de información, Gestión de bases de datos, Proveedor de Contenido, Medios de Comunicación, Ciencia bibliotecaria, Tipos de biblioteca
▷ Esperamos que haya sido de utilidad. Si conoces a alguien que pueda estar interesado en este tema, por favor comparte con él/ella este contenido. Es la mejor forma de ayudar al Proyecto Lawi.
Los operadores boleanos en efecto se volvieron menos útiles (por ejemplo, encontrar “fibra” y “óptica” en cualquier parte del mismo documento suele ser una coincidencia), mientras que los operadores de proximidad se volvieron más útiles (por ejemplo, “fibra” a menos de dos palabras de “óptica” encuentra frases intencionadas como “red de fibra óptica”), y de ahí el éxito de Google.
Un ejemplo destacado es el sistema de Telesofía, un prototipo de investigación diseñado y construido por Schatz en Bellcore a mediados del decenio de 1980.
Este texto se ocupa de encontrar imágenes o vídeos de colecciones (posiblemente muy grandes) de éstas.