▷ Sabiduría semanal que puedes leer en pocos minutos. Añade nuestra revista gratuita a tu bandeja de entrada. Lee gratis nuestras revistas de Derecho empresarial, Emprender, Carreras, Liderazgo, Dinero, Startups, Políticas, Ecología, Ciencias sociales, Humanidades, Marketing digital, Ensayos, y Sectores e industrias.

Categorización de Hipertexto

▷ Lee Gratis Nuestras Revistas

Categorización de Hipertexto

Este elemento es una ampliación de los cursos y guías de Lawi. Ofrece hechos, comentarios y análisis sobre este tema. [aioseo_breadcrumbs] Un caso especial importante de clasificación de texto se da cuando los documentos son páginas web, es decir, archivos HTML. La clasificación automática de las páginas web suele conocerse como Categorización de Hipertexto (o Clasificación de Hipertexto).

La clasificación de hipertexto es similar a la clasificación de texto “ordinario”, por ejemplo, artículos de periódicos o revistas, sobre la base de su contenido, pero como veremos, la primera puede ser a menudo considerablemente más difícil.

Clasificación de las páginas web

La pregunta más obvia que hay que hacer es por qué debemos molestarnos en hacer la categorización del hipertexto, cuando hay potentes motores de búsqueda como Google disponibles para localizar las páginas web de interés.
Se ha estimado que la World Wide Web comprende más de 13.000 millones de páginas y crece a un ritmo de varios millones de páginas al día. El tamaño de la web eventualmente (finalmente) abrumará el enfoque de los motores de búsqueda convencionales.

El número de entradas de Google para “derecho” en abril de 2020 fue de 437 millones y para ciencia de 287 millones (en inglés, hace unos años fue de 459.000.000. Un año después había llegado a 4.570.000.000).

En la práctica está claro que muchos (probablemente la mayoría) de los usuarios de Google solo miran la primera pantalla o dos de las entradas devueltas o intentan una búsqueda más elaborada. ¿Qué más pueden hacer? Nadie puede examinar 4.570 millones de entradas en nada. Desafortunadamente, incluso consultas muy específicas pueden devolver fácilmente muchos miles de entradas y este número solo puede crecer con el paso del tiempo. Mirar solo la primera o dos entradas en la pantalla es una gran confianza en el algoritmo usado por Google para clasificar la relevancia de sus entradas, mucho más de lo que se puede justificar de forma realista. Esto no es de ninguna manera para criticar o denigrar a una compañía muy exitosa – solo para señalar que el enfoque estándar utilizado por los motores de búsqueda web no seguirá funcionando con éxito para siempre. Podemos estar seguros de que las empresas de motores de búsqueda son muy conscientes de esto. Tal vez no sea sorprendente que haya estudios que sugieren que muchos usuarios prefieren navegar a través de directorios de contenido preclasificado y que esto les permite frecuentemente encontrar información más relevante en un tiempo más corto.

Al intentar clasificar las páginas web nos encontramos inmediatamente con el problema de encontrar cualquier página clasificada para utilizarla como dato de capacitación. (Tal vez sea de interés más investigación sobre el concepto). Las páginas web son cargadas por un gran número de personas, que operan en un entorno en el que no existe un esquema de clasificación estándar ampliamente acordado. Afortunadamente hay formas de superar este problema, al menos parcialmente.

La empresa de motores de búsqueda, Yahoo, utiliza cientos de clasificadores profesionales para categorizar las nuevas páginas web en una estructura (casi) jerárquica, que comprende 14 categorías principales, cada una de ellas con muchas subcategorías, sub-subcategorías, etc. La estructura completa se puede encontrar en la web en https://dir.yahoo.com. Los usuarios pueden buscar en los documentos de la estructura del directorio utilizando un enfoque de motor de búsqueda o siguiendo los enlaces a través de la estructura. Por ejemplo, podríamos seguir el camino desde “Ciencia” a “Informática” a “Inteligencia Artificial” a “Aprendizaje Automático” para encontrar un conjunto de enlaces a documentos que los clasificadores humanos han colocado en esa categoría.

El sistema de Yahoo demuestra el valor potencial de la clasificación de las páginas web.

Puntualización

Sin embargo, solo una proporción muy pequeña de toda la web podría ser clasificada de esta manera “manualmente”. Con 1,5 millones de nuevas páginas que se añaden cada día, el volumen de material nuevo derrotará a cualquier equipo imaginable de clasificadores humanos. Un área de investigación interesante (que el presente autor y su grupo de investigación persiguen actualmente) es si las páginas web pueden clasificarse automáticamente utilizando el esquema de clasificación de Yahoo (o algún otro esquema similar) mediante métodos de aprendizaje supervisado del tipo descrito en este libro.

A diferencia de muchas otras áreas de tareas para la minería de datos, hay pocos conjuntos de datos “estándar” disponibles en los que los experimentadores puedan comparar sus resultados. Una excepción es el conjunto de datos BankSearch creado por la Universidad de Reading, que incluye 11.000 páginas web preclasificadas (por personas) en cuatro categorías principales (Banca y Finanzas, Programación, Ciencia, Deportes) y 11 subcategorías, algunas bastante distintas y otras bastante similares.

Automatizar la clasificación de un documento en función de su contenido es una tarea difícil.

Puntualización

Sin embargo, los problemas palidecen ante la insignificancia en comparación con la clasificación de un pedazo de hipertexto bastante corto.

Clasificación del hipertexto frente a la clasificación del texto

La clasificación del hipertexto tiene algunas diferencias importantes con respecto a la clasificación del texto “estándar”. Sólo un pequeño número de páginas web (clasificadas manualmente) están disponibles para el aprendizaje supervisado y a menudo se da el caso de que gran parte del contenido de cada página web es irrelevante para el tema de la página (enlaces a fotografías de la familia del creador, horarios de trenes, anuncios, etc.).

Sin embargo, una diferencia es fundamental e inevitable.Entre las Líneas En la clasificación de textos, las palabras que el lector humano ve son muy similares a los datos proporcionados al programa de clasificación.

Un programa que intenta clasificar una página de google automáticamente tiene que lidiar no solo con la escasez de información útil en la página, incluso para los clasificadores humanos, sino con la abundancia de información irrelevante en la forma textual que se le da.

Podemos hacer frente al segundo problema en cierta medida eliminando el marcado HTML y el JavaScript cuando creamos una representación de un documento como una “bolsa de palabras”, pero la escasez de información relevante en la mayoría de las páginas web sigue siendo un problema. Debemos tener cuidado de no asumir que el marcado HTML es siempre un ruido irrelevante – las únicas dos palabras útiles en un ejemplo de Google aparecen en el marcado HTML.

Incluso comparadas con los artículos de los periódicos, los trabajos de las revistas científicas, etc. las páginas web sufren de una autoría extremadamente diversa, con poca consistencia en el estilo o vocabulario, y un contenido extremadamente diverso. Ignorando la marca HTML, JavaScript, anuncios irrelevantes y similares, el contenido de una página web es a menudo bastante pequeño. No es sorprendente que los sistemas de clasificación que funcionan bien en documentos de texto estándar a menudo luchen con el hipertexto. Se informa que en un experimento, los clasificadores que tenían una precisión del 90% en el conjunto de datos ampliamente utilizado de Reuters (de documentos de texto estándar) obtuvieron solo un 32% en una muestra de páginas clasificadas de Yahoo.

▷ Lo último (en 2026)
▷ Si te gustó este texto o correo, considera compartirlo con tus amigos. Si te lo reenviaron por correo, considera suscribirte a nuestras publicaciones por email de Derecho empresarialEmprenderDineroMarketing digital y SEO, Ensayos, PolíticasEcologíaCarrerasLiderazgoInversiones y startups, Ciencias socialesDerecho globalHumanidades, Startups, y Sectores económicos, para recibir ediciones futuras.

Para contrarrestar la escasez de información textual en la página web típica tenemos que tratar de aprovechar la información que se da en las etiquetas, enlaces, etc. en el marcado HTML (aunque, por supuesto, eliminando el marcado mismo antes de convertir el documento en una representación de bolsa de palabras o similar).

La información incrustada en el marcado HTML puede incluir:

Cuánta de esta información incluir y cómo hacerlo es una cuestión de investigación abierta. Debemos tener cuidado con el “juego”, donde una página incluye deliberadamente información engañosa sobre su contenido con el fin de engañar a los motores de búsqueda de Internet. A pesar de ello, la experiencia sugiere que extraer palabras importantes del marcado (especialmente los ‘metadatos’) e incluirlas en la representación puede mejorar significativamente la precisión de la clasificación, especialmente si se da a las palabras una mayor ponderación (digamos, 3 veces mayor) que las extraídas del contenido de texto básico de la página.

Basado en la experiencia de varios autores, mis opiniones, perspectivas y recomendaciones se expresarán a continuación (o en otros lugares de esta plataforma, respecto a las características en 2026 o antes, y el futuro de esta cuestión):

Para mejorar aún más la precisión de la clasificación podríamos estudiar la posibilidad de incluir parte de la información en el “vecindario de enlaces” de cada página web, es decir, las páginas a las que apunta y las páginas que apuntan a ella.

Datos verificados por: LI

Recursos

[rtbs name=”informes-jurídicos-y-sectoriales”][rtbs name=”quieres-escribir-tu-libro”]

Traducción al Inglés

Traducción al inglés: Hypertext Categorisation.

Véase También

Clasificación de Texto
Vectorial Modelo Espacial
Cronología de la tecnología de hipertexto
Cibertexto
Arquitectura de gestión de datos distribuidos
HTML (HyperText Markup Language)
Hyperwords
Hipertexto
HTTP
Ciencias de la computación, Almacenamiento de información, gestión de bases de datos, técnicas de programación, Recuperación de información
Hyperkino
Documentos
Frecuencia en Documentos
Clasificador Humano
Concepto de minería
Procesamiento de documentos
Búsqueda de texto completo
Lista de programas informáticos de minería de textos
El sentimiento del mercado
Resolución del nombre (semántica y extracción de texto)
Reconocimiento de la entidad nombrada
Análisis de noticias
Escritura colaborativa
Producción textual colaborativa
Narrativa hipermedia
Aprendizaje de ontología
Registro de la vinculación
Minería de patrones secuenciales (minería de cadenas y secuencias)
w-shingling
La minería de la web, una tarea que puede implicar la minería de textos (por ejemplo, primero encontrar las páginas web apropiadas clasificando las páginas web rastreadas, y luego extraer la información deseada del contenido del texto de esas páginas que se considere pertinente)
Minería de Datos, Lingüística Computacional, Aplicaciones de inteligencia artificial, Minería de datos aplicada, Procesamiento de lenguajes naturales, Procesamiento de lenguajes naturales estadísticos, Texto

📬Si este tipo de historias es justo lo que buscas, y quieres recibir actualizaciones y mucho contenido que no creemos encuentres en otro lugar, suscríbete a este substack. Es gratis, y puedes cancelar tu suscripción cuando quieras:

Qué piensas de este contenido? Estamos muy interesados en conocer tu opinión sobre este texto, para mejorar nuestras publicaciones. Por favor, comparte tus sugerencias en los comentarios. Revisaremos cada uno, y los tendremos en cuenta para ofrecer una mejor experiencia.

▷ Esperamos que haya sido de utilidad. Si conoces a alguien que pueda estar interesado en este tema, por favor comparte con él/ella este contenido. Es la mejor forma de ayudar al Proyecto Lawi.
▷ Lee Gratis Nuestras Publicaciones
,Si este contenido te interesa, considera recibir gratis nuestras publicaciones por email de Derecho empresarial, Emprender, Dinero, Políticas, Ecología, Carreras, Liderazgo, Ciencias sociales, Derecho global, Marketing digital y SEO, Inversiones y startups, Ensayos, Humanidades, y Sectores económicos, en Substack.

Contenidos Relacionados:

Los de arriba son los elementos relacionados con este contenido de la presente plataforma digital de ciencias sociales.

4 comentarios en «Categorización de Hipertexto»

Foro de la Comunidad: ¿Estás satisfecho con tu experiencia? Por favor, sugiere ideas para ampliar o mejorar el contenido, o cómo ha sido tu experiencia:

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

▷ Recibe gratis nuestras revistas de Derecho empresarial, Emprender, Carreras, Dinero, Políticas, Ecología, Liderazgo, Marketing digital, Startups, Ensayos, Ciencias sociales, Derecho global, Humanidades, y Sectores económicos, en Substack. Cancela cuando quieras.
Index

Descubre más desde Plataforma de Derecho y Ciencias Sociales

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo