Immunization as a component of the human right of health

El algoritmo de detección de componentes fuertes implementado en este trabajo fue

ejecutado para la versión del grafo de ODP que también fue objeto de estudio de los

capítulos 5, 6 y 7 de esta tesis. Los resultados de esta sección fueron publicados en [19]. En

la Tabla 5-1 se resumen los resultados obtenidos. Se puede ver allí el número de

componentes fuertes halladas agrupadas por la cantidad de nodos que las componen. Por

ejemplo, existen 12 componentes fuertes de tamaño 22, y 8 de tamaño 25, mientras que no

se halló ninguna con 35 nodos exactamente.

Tamaño Cantidad Tamaño Cantidad Tamaño Cantidad Tamaño Cantidad

1 260702 16 18 31 4 60 1 2 5305 17 12 32 2 64 1 3 1524 18 12 33 2 70 1 4 632 19 6 34 1 78 1 5 381 20 8 37 1 81 1 6 225 21 8 41 2 83 2 7 167 22 12 42 1 85 1 8 98 23 5 43 1 86 1 9 70 24 7 44 2 89 2 10 77 25 8 45 1 98 1 11 43 26 1 46 1 101 1 12 48 27 3 48 1 123 1 13 28 28 3 49 1 279519 1 14 31 29 4 51 1 15 25 30 4 54 1

Tabla 5-1: Cantidad de componentes fuertes halladas para cada tamaño.

Para ampliar la información contenida en la Tabla 5-1, el gráfico de la Figura 5-4

muestra la relación existente entre el tamaño de componente expresado en cantidad de

Capítulo 5 Análisis Estructural en Ciencias de la Información

130

gráfico está expresado en escala doble logarítmica, y muestra una posible relación

funcional entre la frecuencia y el tamaño de las componentes fuertes. Para evaluar si

realmente puede existir, por ejemplo, una distribución potencial de frecuencias por

tamaños, deberían ser llevados a cabo diversos estudios estadísticos.

Figura 5-4: Gráfico de cantidades de componentes fuertes por tamaño, en escala doble logarítmica. Otro resultado importante es la existencia de una gran componente de 279.519

nodos, cerca de la mitad de todos los nodos del volumen. Es muy probable que algunas de

las relaciones inducidas por esta componente no sean coherentes, ya que las relaciones se

establecen vinculando a cada nodo con todos los demás dentro de cada componente.

En contraste con la gran componente descripta se encuentran numerosos nodos

aislados, es decir, componentes fuertes de un solo nodo, totalizando las 260.702. Al igual

que para la gran componente, sería de interés efectuar algún análisis sobre las posibles

relaciones existentes entre cada uno de estos nodos aislados y otros nodos correspondientes

a diferentes tópicos. La única razón por la que estos nodos no están dentro de otras

componentes es que el algoritmo no encontró un ciclo que los contenga.

Tal vez con la simple incorporación de algún enlace adicional, los nodos aislados

Capítulo 5 Análisis Estructural en Ciencias de la Información

131

componente fuerte más grande hallada, se pueda dividir esta en componentes más pequeñas

con relaciones más significativas. El criterio utilizado para agregar o eliminar una arista

podría estar asociado con el nivel de importancia de los distintos tipos de arista, como por

ejemplo dar mayor importancia a enlaces de la jerarquía y menor importancia a los enlaces

del tipo “véase también”. Id Tópico

502266 Top/Computers/Software/Typesetting/TeX/Plain_TeX/Macros 155677 Top/Science/Math/Publications/Style_Files

300975 Top/Computers/Software/Typesetting/TeX/Macros 4795 Top/Computers/Software/Typesetting/TeX/LaTeX/Macros

Tabla 5-2: Tópicos de una componente fuerte de ODP.

Para evaluar algunos ejemplos de las relaciones entre tópicos surgidas por la

detección de componentes fuertes, la Tabla 5-2 y la Tabla 5-3 muestran la información de

los tópicos contenidos en dos de las componentes fuertes halladas. La Tabla 5-2 describe un

conjunto de tópicos que en principio podrían estar muy relacionados entre sí. El

descubrimiento de la relación entre los tópicos COMPUTERS / SOFTWARE /

TYPESETTING / TEX / PLAIN_TEX / MACROS y SCIENCE / MATH /

PUBLICATIONS / STYLE_FILES, proveniente de la componente fuerte mencionada,

agrega información significativa al modelo del grafo de ODP, porque la relación es

coherente y no estaba contemplada en el modelo original de ODP. Por otro lado, podemos

ver en la Tabla 5-3 dos tópicos que parecerían no estar relacionados como son

LOUISIANA / TRAVEL_AND_TOURISM / TRAVEL_SERVICES /

TOUR_OPERATORS y LOUISIANA / RECREATION_AND_SPORTS /

FISHING_AND_HUNTING / GUIDES_AND_CHARTERS, pero que de acuerdo a la

componente que los contiene tendrían una relación, lo cual aportaría información

Capítulo 5 Análisis Estructural en Ciencias de la Información 132 Id Tópico 91990 Top/Regional/North_America/United_States/Louisiana/ Travel_and_Tourism/Travel_Services/Tour_Operators 380010 Top/Recreation/Outdoors/Guides_and_Outfitters/ North_America/United_States/Louisiana 221405 Top/Recreation/Outdoors/Hunting/Guides_and_Outfitters/ North_America/United_States/Louisiana 34931 Top/Regional/North_America/United_States/Louisiana/ Recreation_and_Sports/Fishing_and_Hunting/Guides_and_Charters

Tabla 5-3: Tópicos de una componente fuerte de ODP.

5.5 Conclusiones

Este capítulo introduce el tema del análisis estructural en Ciencias de la

Información, teniendo en cuenta para ello al gran directorio del proyecto ODP. Primero se

explica el concepto de ontología informática, y se enumeran trabajos de investigación que

hacen uso de este tipo de representación, enfocándose sobre problemas relacionados con la

relevancia entre objetos de un corpus de datos o el cálculo de distintas medidas de similitud

entre los mismos, con el objetivo de hallar información valiosa para un usuario. Luego, se

muestra una descripción del proyecto ODP y una herramienta de visualización de su

estructura, para terminar con la implementación de un algoritmo que permite obtener

información valiosa sobre las relaciones existentes entre sus tópicos.

Tanto la información contenida en el grafo de ODP como las herramientas

desarrolladas en esta sección constituyen una base fundamental para el trabajo que se

describe en los siguientes dos capítulos de esta tesis. Las representaciones del directorio

ODP y las componentes fuertes halladas constituyen el material de trabajo que permitió

llevar a cabo distintos experimentos para determinar la validez de los modelos de

Capítulo 6 Propagación de Relevancia

135

6.1 Introducción

Luego de definir en el capítulo anterior las cuestiones fundamentales acerca del

funcionamiento y la representación del proyecto ODP, los aspectos relacionados a la

relevancia entre tópicos y su propagación son definidos aquí. El concepto de relevancia es

muy útil para cuantificar medidas de relación entre distintas entidades de un gran corpus de

datos. Por ejemplo, la similitud semántica entre documentos de un directorio puede ser

definida en base a esquemas de propagación de relevancia.

La información que se obtiene mediante el uso de los esquemas mencionados y las

medidas que de esto se generan, pueden derivar en resultados más precisos sobre búsquedas

de información o consultas de usuarios en distintos contextos. Para lograr este objetivo, en

este capítulo se describe la construcción de numerosos modelos de propagación de

relevancia sobre ODP, los cuales hacen uso de distintas operaciones matriciales y

algoritmos sobre los grafos que representan la estructura de este directorio.

La primera sección del capítulo traza los objetivos perseguidos por la determinación

de la propagación de relevancia. Después se define más profundamente el concepto de

relevancia, asociando este concepto con la teoría de probabilidad. Luego se enumeran

trabajos relacionados, se explica el mecanismo de construcción de los distintos modelos de

propagación de relevancia, y por último se expresan las conclusiones del capítulo.

In document Regional Strategic Plan for Immunization (Page 81-83)