• No results found

Chapter 4: Arya-Nepal

2. Workers

La pantalla de inicio, Búsqueda en Pubmed, solicita al usuario el término que quiere buscarse en Medline, y el intervalo de fechas de publicación de los documentos seleccionados, permitiendo visualizar la consulta que se lanzará a Pubmed. La búsqueda que se va a realizar será obtener todas las publicaciones existentes en Medline sobre el Síndrome de Williams entre 1980 y 2018 y constituye la primera etapa del proceso de minería de textos, que nos permitirá obtener el corpus con toda la información que posteriormente se analizará.

Fig. 24 Pantalla inicio GEN-IO.

Fig. 25 Resultado de la búsqueda en Pubmed.

En el caso que se está analizando se han obtenido 1.580 documentos. Y al seleccionar cada una de las filas se muestra su contenido, para que pueda ser leído por el usuario, incluyéndose además un enlace al documento publicado en Pubmed:

Fig. 26 Resumen de la publicación seleccionada

Como se puede observar, en la parte inferior del resumen de la publicación se incluye un enlace para navegar hacia la web de Pubmed, desde donde será posible acceder al documento completo.

Usando el cuadro Buscar, podemos realizar búsquedas para filtrar, de entre todas las publicaciones, las que en su campo Journal contienen el término buscado. Por ejemplo, se han encontrado veinte registros que contienen 2018:

Fig. 28 Publicaciones que en su campo Journal contienen 2018

Desde la opción de menú Explorar publicaciones podemos navegar por todos los abstracts que componen el corpus, y extraer la información relevante de Pubtator:

Fig. 29 Enfermedades y genes relacionados con la publicación seleccionada.

Es importante, a partir del corpus seleccionado, poder extraer la lista de palabras junto con el número de veces que cada una de ellas aparece, y esto se puede realizar desde la opción de menú Frecuencia de palabras. Como se puede observar, las palabras que con mayor frecuencia aparecen en este corpus son: ws, syndrome, williams, children, patients, individuals, information, results,…

Fig. 30 Frecuencia palabras del corpus seleccionado.

En la tabla, usando el control Buscar, se pueden realizar búsquedas por un término, por ejemplo “denta”:

Fig. 31 Palabras que contienen “denta”

De igual modo, se puede obtener la Frecuencia genes, que ayuda a conocer qué genes han sido afectados en el síndrome de Williams, que como ya se comentó en el capítulo 2, éste se produce por la pérdida de información genética en la posición 11.23 del cromosoma 7. Y mediante la minería de textos se ha podido averiguar que los principales genes afectados son:

Para mostrar de forma visual qué palabras y qué genes se repiten con más frecuencia se utiliza la Nube de Palabras y Genes, que es el método más común para dicho propósito dentro de la minería de textos.

Fig. 33 Nube de palabras y genes

En la sección Filtrar public. por genes se permite seleccionar un gen y buscar aquellos artículos en los que se habla de ese gen. Por ejemplo, podemos ver que existen 58 publicaciones en las que se menciona al gen GTF2I. Y seleccionando cada una de ellas accedemos a la información relevante de esa publicación:

Fig. 35 Genes que aparecen en las mismas publicaciones que el gen GTF2I

Fig. 36 Enfermedades que aparecen en las mismas publicaciones que el gen GTF2I

Fig. 37 Elementos químicos que aparecen en las mismas publicaciones que el gen GTF2I

Desde Filtrar publicaciones por término, se puede encontrar el corpus secundario de todas publicaciones que contienen los términos que indiquemos. Por ejemplo, se han encontrado 150 publicaciones en las que se menciona la expresión mental retardation:

Fig. 39 Filtrar publicacions en las que se menciona el termino mental retardation Para encontrar las relaciones de similitud entre enfermedades y genes, es necesario obtener aquellas enfermedades relacionadas con el WS, pulsando Buscar enfermedades:

Fig. 40 Búsqueda de Relaciones de Similitud

Se han encontrado un total de 257 enfermedades relacionadas con el WS, en un corpus generado con los documentos de los últimos dos años. Para algunas de ellas no se ha podido encontrar ninguna relación de similitud con ningún gen.

Fig. 41 Listado de enfermedades relacionades con el Síndrome de Williams

Se han calculado dos medidas para ver la relación de similitud entre enfermedad- gen, una con el análisis de la semántica latente y otra que se calcula con el coseno de similitud. Se ha podido comprobar que el coseno de similitud es mucho más restrictivo que LSA. Realmente lo que se obtienen son coincidencias en párrafos, y a continuación se muestran evidencias de los datos obtenidos.

Fig. 43 Relaciones de similitud del coseno para aortic stenosis

Fig. 44 Gráfico Relaciones de similitud del coseno para aortic stenosis

A continuación se detallan las enfermedades sobre las que sí que se han hallado relaciones con genes encontrados en párrafos del corpus. Se adjuntan pruebas de evidencia, mostrando los párrafos en los que aparecen los genes junto a las enfermedades, en los documentos que forman el corpus.

SUPRAVALVULAR AORTIC STENOSIS (estenosis aórtica supravalvular)

SENSORINEURAL HEARING LOSS (Pérdida auditiva neurosensorial)

DEFICITS IN SOCIAL COGNITION (deficits en cognición social)

HYPER-SOCIABILITY (hiper sociabilidad)

GENETIC DISORDER (trastorno genético)

DEATH (muerte)

TREMOR (temblor)

HYPERCALCEMIA (hipercalcemia)

MENTAL DISABILITY (discapacidad mental)

ABNORMAL THYROID FUNCTION (función anormal tiroides)

SOCIAL COGNITION (cognición social)

EMPHYSEMA (enfisema)

GROWTH RETARDATION (retraso en el crecimiento)

FACIAL DYSMORPHISM (dismorfismo facial)

Es posible realizar búsquedas de cualquiera de estas enfermedades o cualquier otro término usando la opción de menú Filtrar publicaciones por término, como también buscar las publicaciones en las que se menciona a un gen concreto desde Filtrar publicaciones por gen.

Por ejemplo, se realiza la búsqueda del término “extremely sociable”, que es una de las características de los individuos que padecen este síndrome, y encontramos que en 2 documentos del corpus se menciona, pudiendo acceder al contenido de los mismos: