• No results found

Desde el punto de vista de la recuperación de información, la iniciativa llamada “Web semántica” se puede considerar una continuación de otras iniciativas de metadatos. De hecho, aunque el concepto se popularizó tras la publicación de un trabajo divulgativo en Mayo de 2001 ya existía a finales de los 80 y aparece integrada en las actividades alrededor del Resource Description Framework. Su explicación es simple:

“El Web se diseñó como un espacio informativo, con el objetivo de que fuera útil no sólo para la comunicación entre personas, sino también para que las máquinas pudieran participar y ayudar. Uno de los principales obstáculos de este objetivo ha sido el hecho de que la mayor parte de la información en la web se ha diseñado para consumo humano, e incluso si se extrae de estructuras de base de datos con significados bien definidos por sus tablas, esa estructura no es evidente para un robot que rastree la web. Dejando aparte el problema de la inteligencia artificial, de entrenar máquinas para que se comporten como humanos, el enfoque de la web semántico desarrolla lenguajes para expresar información de forma comprensible para el procesamiento automático” .

(Berners-Lee, 1998)

Las etiquetas HTML están destinadas a que los procesadores y programas de visualización puedan representar el formato de los documentos. Las etiquetas XML y su cohorte de esquemas de datos (DTD, Document Type Definitions), reglas de descripción de recursos, vocabularios, sintaxis y otras especificaciones, pretenden destinarse a representar el contenido de los documentos:

“El Web semántico dotará de estructura al contenido significativo de las páginas Web, creando un entorno donde los agentes de software que circulan de página a página puedan realizar tareas sofisticadas para los usuarios. Cuando un agente llegue (…) no sólo sabrá que la página tiene palabras clave…”.

(Berners-Lee, Hendler, & Lassila, 2001).

La idea, por tanto, se basa en asociar a cada documento un conjunto de elementos o marcas que conviertan las meras expresiones textuales en valores de unos atributos. El marcaje con XML, que “permite a cualquier usuario crear sus propias marcas- etiquetas ocultas similares a las marcas de las páginas Web o a las anotaciones de las secciones de las páginas de texto (...) añadiendo así una estructura arbitraria a sus documentos que, sin embargo, no dice nada acerca de lo que significan”. El significado se añade a través del RDF, que “codifica conjuntos de atribuciones” e informa acerca de que “X es autor de de” por ejemplo (Berners-Lee et al., 2001).

El panorama que esta Web de significados prefigura es el de una base de datos universal de documentos estructurados. Este panorama ideal ha generado cierto escepticismo entre la comunidad de la documentación. Pero ese escepticismo no significa desconfianza hacia el propio concepto de “Web semántica” , cuyos objetivos en relación con la representación y acceso al conocimiento se han calificado de “magníficos” (Codina, 2003). Más bien significa desconfianza en la capacidad de los productores y distribuidores de los documentos para la asignación de metadatos y conjuntos de etiquetas XML. Terrence Brooks emplea una perspectiva más amplia en su crítica. Abarca no sólo la dificultad de incorporar elementos estructurales y etiquetas de significado a los documentos del espacio Web. También se apoya en las limitaciones del empleo de las etiquetas meta (discutidas aquí en los párrafos anteriores). Además, ahonda en las diferencias entre la representación formal y de contenido:

“Hemos heredado el concepto de documento de los sistemas de archivo vertical y de las bases de datos bibliográficas, dos entornos tecnológicos que separan contenido y representación... Contemplada desde la perspectiva del HTML, sin embargo, la indización de páginas Web confunde representación y contenido” .

Introduce, además, la característica volatilidad de los documentos del espacio Web contrastándola con la estabilidad de los documentos impresos y profundiza en su carácter de “instantáneas”:

“Visualizar lo que una página muestra en el navegador entre las etiquetas <HTML> y </HTML> refleja la forma en que el navegador dispone la fuente de bytes que llega del servidor, pero nada dice acerca de cómo se estructuró su contenido en el servidor de partida”.

Se basa en diversas estimaciones sobre la proporción de documentos que se generan en respuesta a una consulta a bases de datos para ahondar más en la volatilidad de la información en ellos contenida. Concluye del siguiente modo:

“...Las páginas Web no son buenos anfitriones para metadatos temáticos. Esto no es un juicio de valor sobre los metadatos en sí mismos, sino la mera observación de que no se aplican correctamente a una tecnología caracterizada por la mezcla de contenido en presentaciones arbitrarias recorridas por algoritmos desconocidos. El coste y esfuerzo de añadir metadatos temáticos a una estructura informativa sólo están justificados si tal estructura persiste en el tiempo con estructura, identidad y contenidos reconocibles”.

No obstante, distingue el “closed web” constituído por intranets, bibliotecas digitales y otros espacios, donde admite la validez de procedimientos basados en indización asistida, porque representan entornos en que existe un acuerdo entre la asignación de metadatos y la estabilidad de las estructuras informativas. De hecho, hace equivaler los términos “web semántica” y “web cerrado”.

Brookes no afronta la situación paradójica que se desprende de su propia línea argumental: si un alto porcentaje (cita estimaciones que lo aproximan al 75%) del contenido del espacio Web se genera de consultas a bases de datos, ¿ Cuál es la dificultad para generar un etiquetado semántico mediante la “traducción” de, por ejemplo, los nombres de campos de su esquema conceptual?. La experiencia de PubMed (http://www.pubmed.org) , que ofrece un formato de salida etiquetado en XML puede servir de ilustración a esta cuestión.