• No results found

Tal como se describe en la Secci´on 3.4.3.8, el objetivo de esta fase es consultar la base de datos en busca de las entidades que correspondan a los autores reconocidos en una lista de autores. Estas entidades, del tipo investigador, deben ser vinculadas a la entidad de tipo art´ıculo a la cual corresponde la lista de autores.

La entrada a esta etapa consta de los autores reconocidos por las etapas de heur´ısticas y tra- ducci´on. La b´usqueda de autores se realiza de forma diferente de acuerdo a si el autor que se esta buscando pertenece, o no, al CONICET. En el primer caso, la herramienta debe buscar entidades del tipo LocalResearcher, mientras que en el segundo caso las entidades son del tipo ForeignResearcher. Esta distinci´on se basa en que los investigadores ajenos al CONICET pueden contar con nombres propios del tipo desconocido adem´as de nombres y apellidos. A continuaci´on se describe como se implement´o la b´usqueda de estos dos tipos de investigadores, en el repositorio del CONICET.

4.6.5.1. B´usqueda de investigadores pertenecientes a la instituci´on

La b´usqueda de investigadores pertenecientes a la instituci´on debe retornar entidades del tipo LocalResearcher y cuenta con las siguientes caracter´ısticas:

La base de datos contiene una ´unica instancia del tipo LocalResearcher por cada investi- gador perteneciente al CONICET. Estas instancias cuentan con todos los nombres de pila, y apellidos, del investigador y los mismos no contienen errores. Como se describi´o en la Secci´on 4.1.1, cada investigador perteneciente al CONICET cuenta con una p´agina Web en la que se encuentran sus datos personales, los cuales se asume que son completos y libres de errores. Esto es importante ya que las instancias de este tipo pueden ser identificadas un´ıvocamente a trav´es de los campos nombre y apellido.

80 CAP´ITULO 4. IMPLEMENTACI ´ON

La informaci´on, obtenida a partir de una lista de autores, que se desea buscar en la base de datos, no est´a compuesta de todos los apellidos y nombres de pila del investigador que se est´a buscando, sino de un subconjunto de ´estos. Esto se debe a que, generalmente, las listas de autores no cuentan con los segundos nombres de pila, o segundos apellidos, de los investigadores.

El conjunto de tokens correspondientes a un investigador que se va a buscar en la base de datos, puede contener tokens del tipo inicial. Estos pueden ser iniciales de apellido o de nombre de pila.

La soluci´on implementada en esta etapa se basa en el patr´on Factory Method [Gamma et al., 1994]. Esta consta de un conjunto de clases donde cada una es responsable de implementar una consulta a la base de datos para una combinaci´on particular de tipos de tokens. La responsabilidad de determinar el tipo de clase a invocar para realizar la b´usqueda, a partir de los tokens de entrada, recae en la clase LocalResearcherQueryFactory. La Figura 4.18 muestra el diagrama de clases de la soluci´on propuesta. A continuaci´on se detalla el objetivo de cada clase.

Figura 4.18:Diagrama de clases para la b´usqueda de investigadores pertenecientes a la instituci´on

LocalResearcherQuery: Clase base de las clases encargadas de consultar la base de datos. FILocalResearcherQuery: Clase utilizada cuando se cuenta con tokens del tipo nombre e inicial.

LLocalResearcherQuery:Clase utilizada cuando solo se cuenta contokensdel tipo apellido. LFILocalResearcherQuery: Clase utilizada cuando se cuenta contokens del tipo apellido, nombre e inicial.

LFLocalResearcherQuery: Clase utilizada cuando se cuenta con tokens del tipo apellido y nombre.

4.6. PROCESAMIENTO DE AUTORES 81 LILocalResearcherQuery: Clase utilizada cuando se cuenta con tokens del tipo apellido e inicial.

LocalResearcherQueryFactory: Esta clase es responsable de crear la instancia de alguna de las subclases deLocalResearcherQuery, de acuerdo a los tipos detokens con los que se cuente para realizar la b´usqueda.

Algoritmo de b´usqueda

El algoritmo de b´usqueda consiste en consultar la base de datos con lostokens recibidos de las etapas de reconocimiento y luego asignar un valor a la entidades, obtenidas de la consulta, de acuerdo al n´umero de apellidos, nombres e iniciales que se correspondan con los asociados al autor que se est´a buscando. La entidad mejor valorada se considera que corresponde con lo buscado y es retornada como resultado de la b´usqueda. Por ejemplo, al buscar un autor compuesto de los apellidos “Lopez Gonzales Diaz”, el investigador de apellidos “Lopez Gonzales” se valora m´as alto que el investigador de apellido “Lopez” ya que el primero contiene dos apellidos de los buscados, mientras que el segundo solo contiene uno.

Al asignar un valor a los investigadores obtenidos de la base de datos, se da mayor importancia a la coincidencia de apellidos que a la de nombres, mientras que la coincidencia de nombres se valora por sobre la de iniciales. Esto se sustenta en que un nombre es compartido por m´as personas que un apellido. Por otro lado, una inicial brinda menos informaci´on sobre una persona que un nombre. Por ejemplo, al buscar un autor compuesto de los apellidos “Lopez Gonzales Diaz” y nombres “Ruben Jose”, el investigador “Lopez Gonzales, Ruben” se valora m´as que el investigador “Lopez, Ruben Jose”. Cada una de las clases mencionadas sigue estas reglas para asignar un valor a las entidades obtenidas de la base de datos.

Luego de asignar un valor a las entidades obtenidas de la base de datos, la b´usqueda finaliza si existe un investigador cuyo valor asignado es mayor que el de las dem´as entidades. En caso que exista m´as de un investigador con igual valor asignado, se comparan las disciplinas cient´ıficas que estos practican contra la de los investigadores ya vinculados al art´ıculo del que proviene la lista de autores. Se asume m´as probable que investigadores de una misma disciplina cient´ıfica trabajen juntos en un art´ıculo, a que lo hagan quienes practican distintas disciplinas. Si esta consideraci´on no es suficiente para obtener un ´unico investigador se concluye que la b´usqueda fall´o.

4.6.5.2. B´usqueda de investigadores ajenos a la instituci´on

La clase ForeignResearcher representa a los investigadores ajenos a la instituci´on, los cuales no cuentan con una p´agina Web dentro del repositorio del CONICET. La ´unica informaci´on que se tiene de estos tipos de investigadores son sus nombres propios, incluyendo iniciales y “desconocidos”, tal como se encuentran en la lista de autores. La b´usqueda de estos investigadores, es similar a la descripta para entidadesLocalResearcher. En principio se consulta la base de datos,

82 CAP´ITULO 4. IMPLEMENTACI ´ON

luego se asigna un valor a las entidades obtenidas, de acuerdo a su similitud con los par´ametros de b´usqueda y, finalmente, se retorna la entidad mejor valorada.

Durante el desarrollo de la herramienta, se observo que los autores identificados como ajenos a la instituci´on est´an compuestos, en su mayor´ıa, por tokens del tipo desconocido. Esto se debe a que gran parte de estos autores son de nacionalidades diferentes a la Argentina, por lo que sus apellidos y nombres no se encuentran entre los utilizados por los investigadores pertenecientes al CONICET. Esta caracter´ıstica llev´o a optar por no implementar una clase por cada una de las posibles combinaciones de tokens, como en el caso de la b´usqueda de entidades LocalResearcher, ya que en la mayor´ıa de las b´usquedas la combinaci´on de tokens del tipo desconocido es suficientemente ´unica para poder diferenciar un investigador de otro.

Luego de retornar el investigador buscado, se analiza la posibilidad de mejorar la informaci´on que se tiene de ´este. Simplemente, se compara la informaci´on con la que se contaba al iniciar la b´usqueda contra la informaci´on contenida en el investigador retornado. Si al comenzar la b´usqueda, se contaba con apellidos, nombres, desconocidos o iniciales que no est´an presentes en el investigador retornado estos nombres propios son incorporados al mismo.

4.7.

Indicadores bibliom´etricos

Esta secci´on describe la implementaci´on de los indicadores bibliom´etricos, mencionados en la Secci´on 3.5, para el repositorio del CONICET. La soluci´on propuesta en la secci´on mencionada se adapt´o considerando las caracter´ısticas del repositorio objetivo. A su vez, se agregaron nuevos indicadores, de acuerdo a los tipos de entidades propios del modelo de datos utilizado en el repositorio del CONICET.

Como se describi´o en la Secci´on 4.4, el principal cambio realizado al modelo de datos original, para su adaptaci´on al repositorio del CONICET, es el la separaci´on de los investigadores en aquellos pertenecientes a la instituci´on y los ajenos a esta. Por esto, se modific´o la lista de indicadores bibliom´etricos base, descriptos en la Secci´on 3.5, de la siguiente forma:

1. Promedio de art´ıculos de revista por investigador. Este indicador se dividi´o en dos indica- dores, uno que calcula el promedio de art´ıculos por revista de todos los investigadores, y otro que realiza el c´alculo contando solo a los investigadores pertenecientes a la instituci´on. De esta forma se puede obtener informaci´on exclusivamente de la instituci´on en estudio. 2. Promedio de art´ıculos de revista por investigador dentro de cada una de las disciplinas

cient´ıficas. Dado que no se cuenta con informaci´on acerca de las disciplinas cient´ıficas que practica un investigador ajeno a la instituci´on, este indicador solo considera investigadores pertenecientes al CONICET.

3. Promedio de autores por art´ıculo. Al igual que el indicador 1, ´este se dividi´o en dos in- dicadores, uno que contempla a todos los investigadores y otro que solo cuenta a los pertenecientes a la instituci´on.

4.7. INDICADORES BIBLIOM ´ETRICOS 83 El resto de los indicadores descriptos en la Secci´on 3.5: Total de art´ıculos de revista, art´ıculos de conferencia y cap´ıtulos de libro;Las 20 revistas, conferencias y libros m´as populares;Impact factor promedio para las revistas existentes, no se ven afectados por los cambios en el modelo de datos.