El algoritmo de detección de componentes fuertes implementado en este trabajo fue
ejecutado para la versión del grafo de ODP que también fue objeto de estudio de los
capítulos 5, 6 y 7 de esta tesis. Los resultados de esta sección fueron publicados en [19]. En
la Tabla 5-1 se resumen los resultados obtenidos. Se puede ver allí el número de
componentes fuertes halladas agrupadas por la cantidad de nodos que las componen. Por
ejemplo, existen 12 componentes fuertes de tamaño 22, y 8 de tamaño 25, mientras que no
se halló ninguna con 35 nodos exactamente.
Tamaño Cantidad Tamaño Cantidad Tamaño Cantidad Tamaño Cantidad
1 260702 16 18 31 4 60 1 2 5305 17 12 32 2 64 1 3 1524 18 12 33 2 70 1 4 632 19 6 34 1 78 1 5 381 20 8 37 1 81 1 6 225 21 8 41 2 83 2 7 167 22 12 42 1 85 1 8 98 23 5 43 1 86 1 9 70 24 7 44 2 89 2 10 77 25 8 45 1 98 1 11 43 26 1 46 1 101 1 12 48 27 3 48 1 123 1 13 28 28 3 49 1 279519 1 14 31 29 4 51 1 15 25 30 4 54 1
Tabla 5-1: Cantidad de componentes fuertes halladas para cada tamaño.
Para ampliar la información contenida en la Tabla 5-1, el gráfico de la Figura 5-4
muestra la relación existente entre el tamaño de componente expresado en cantidad de
Capítulo 5 Análisis Estructural en Ciencias de la Información
130
gráfico está expresado en escala doble logarítmica, y muestra una posible relación
funcional entre la frecuencia y el tamaño de las componentes fuertes. Para evaluar si
realmente puede existir, por ejemplo, una distribución potencial de frecuencias por
tamaños, deberían ser llevados a cabo diversos estudios estadísticos.
Figura 5-4: Gráfico de cantidades de componentes fuertes por tamaño, en escala doble logarítmica. Otro resultado importante es la existencia de una gran componente de 279.519
nodos, cerca de la mitad de todos los nodos del volumen. Es muy probable que algunas de
las relaciones inducidas por esta componente no sean coherentes, ya que las relaciones se
establecen vinculando a cada nodo con todos los demás dentro de cada componente.
En contraste con la gran componente descripta se encuentran numerosos nodos
aislados, es decir, componentes fuertes de un solo nodo, totalizando las 260.702. Al igual
que para la gran componente, sería de interés efectuar algún análisis sobre las posibles
relaciones existentes entre cada uno de estos nodos aislados y otros nodos correspondientes
a diferentes tópicos. La única razón por la que estos nodos no están dentro de otras
componentes es que el algoritmo no encontró un ciclo que los contenga.
Tal vez con la simple incorporación de algún enlace adicional, los nodos aislados
Capítulo 5 Análisis Estructural en Ciencias de la Información
131
componente fuerte más grande hallada, se pueda dividir esta en componentes más pequeñas
con relaciones más significativas. El criterio utilizado para agregar o eliminar una arista
podría estar asociado con el nivel de importancia de los distintos tipos de arista, como por
ejemplo dar mayor importancia a enlaces de la jerarquía y menor importancia a los enlaces
del tipo “véase también”. Id Tópico
502266 Top/Computers/Software/Typesetting/TeX/Plain_TeX/Macros 155677 Top/Science/Math/Publications/Style_Files
300975 Top/Computers/Software/Typesetting/TeX/Macros 4795 Top/Computers/Software/Typesetting/TeX/LaTeX/Macros
Tabla 5-2: Tópicos de una componente fuerte de ODP.
Para evaluar algunos ejemplos de las relaciones entre tópicos surgidas por la
detección de componentes fuertes, la Tabla 5-2 y la Tabla 5-3 muestran la información de
los tópicos contenidos en dos de las componentes fuertes halladas. La Tabla 5-2 describe un
conjunto de tópicos que en principio podrían estar muy relacionados entre sí. El
descubrimiento de la relación entre los tópicos COMPUTERS / SOFTWARE /
TYPESETTING / TEX / PLAIN_TEX / MACROS y SCIENCE / MATH /
PUBLICATIONS / STYLE_FILES, proveniente de la componente fuerte mencionada,
agrega información significativa al modelo del grafo de ODP, porque la relación es
coherente y no estaba contemplada en el modelo original de ODP. Por otro lado, podemos
ver en la Tabla 5-3 dos tópicos que parecerían no estar relacionados como son
LOUISIANA / TRAVEL_AND_TOURISM / TRAVEL_SERVICES /
TOUR_OPERATORS y LOUISIANA / RECREATION_AND_SPORTS /
FISHING_AND_HUNTING / GUIDES_AND_CHARTERS, pero que de acuerdo a la
componente que los contiene tendrían una relación, lo cual aportaría información
Capítulo 5 Análisis Estructural en Ciencias de la Información 132 Id Tópico 91990 Top/Regional/North_America/United_States/Louisiana/ Travel_and_Tourism/Travel_Services/Tour_Operators 380010 Top/Recreation/Outdoors/Guides_and_Outfitters/ North_America/United_States/Louisiana 221405 Top/Recreation/Outdoors/Hunting/Guides_and_Outfitters/ North_America/United_States/Louisiana 34931 Top/Regional/North_America/United_States/Louisiana/ Recreation_and_Sports/Fishing_and_Hunting/Guides_and_Charters
Tabla 5-3: Tópicos de una componente fuerte de ODP.
5.5 Conclusiones
Este capítulo introduce el tema del análisis estructural en Ciencias de la
Información, teniendo en cuenta para ello al gran directorio del proyecto ODP. Primero se
explica el concepto de ontología informática, y se enumeran trabajos de investigación que
hacen uso de este tipo de representación, enfocándose sobre problemas relacionados con la
relevancia entre objetos de un corpus de datos o el cálculo de distintas medidas de similitud
entre los mismos, con el objetivo de hallar información valiosa para un usuario. Luego, se
muestra una descripción del proyecto ODP y una herramienta de visualización de su
estructura, para terminar con la implementación de un algoritmo que permite obtener
información valiosa sobre las relaciones existentes entre sus tópicos.
Tanto la información contenida en el grafo de ODP como las herramientas
desarrolladas en esta sección constituyen una base fundamental para el trabajo que se
describe en los siguientes dos capítulos de esta tesis. Las representaciones del directorio
ODP y las componentes fuertes halladas constituyen el material de trabajo que permitió
llevar a cabo distintos experimentos para determinar la validez de los modelos de
Capítulo 6 Propagación de Relevancia
Capítulo 6 Propagación de Relevancia
135
6.1 Introducción
Luego de definir en el capítulo anterior las cuestiones fundamentales acerca del
funcionamiento y la representación del proyecto ODP, los aspectos relacionados a la
relevancia entre tópicos y su propagación son definidos aquí. El concepto de relevancia es
muy útil para cuantificar medidas de relación entre distintas entidades de un gran corpus de
datos. Por ejemplo, la similitud semántica entre documentos de un directorio puede ser
definida en base a esquemas de propagación de relevancia.
La información que se obtiene mediante el uso de los esquemas mencionados y las
medidas que de esto se generan, pueden derivar en resultados más precisos sobre búsquedas
de información o consultas de usuarios en distintos contextos. Para lograr este objetivo, en
este capítulo se describe la construcción de numerosos modelos de propagación de
relevancia sobre ODP, los cuales hacen uso de distintas operaciones matriciales y
algoritmos sobre los grafos que representan la estructura de este directorio.
La primera sección del capítulo traza los objetivos perseguidos por la determinación
de la propagación de relevancia. Después se define más profundamente el concepto de
relevancia, asociando este concepto con la teoría de probabilidad. Luego se enumeran
trabajos relacionados, se explica el mecanismo de construcción de los distintos modelos de
propagación de relevancia, y por último se expresan las conclusiones del capítulo.