Planteada la necesidad de tener que realizar de forma periódica un dossier con información relevante para diputados y grupos parlamentarios de las Cortes de Aragón a partir de contenidos publicados por medios digitales y otras entidades, así como relacionados con la actualidad política; la consulta de los canales RSS que se facilitan en los sitios web, destacaría por ser la estrategia más sencilla y rápida de ser imple- mentada mediante programación frente a otras opciones, más laboriosas, como la realización de técnicas de webscraping con el fin de poder recoger información de forma desatendida.
No obstante, pese a tener claro en un comienzo del proyecto, el tipo de fuentes de información a consultar para alcanzar el objetivo del proyecto, el enfoque del mismo con el que se llevo a cabo, difirió del que se tuvo en un comienzo.
Así pues, en primer lugar se contempló la opción de capturar sólo artículos de prensa publicados en me- dios de comunicación digitales y que son proporcionados mediante el servicio de Google News a través de un único canal RSS, ya que a través del mismo, los usuarios y administradores del sistema resultante, obtendrían informaciones publicadas por medios de comunicación digitales cuya existencia podrían llegar
a desconocer en algún caso, y ello podría dar lugar a un mayor conocimiento acerca de los puntos de vista periodísticos con los que se trata un acontecimiento de actualidad, o bien, aportar un mayor conoci- miento acerca de los medios que se hacen eco de un tema determinado.
A priori, el planteamiento inicial de usar el servicio de Google News ofrecía una serie de ventajas y grandes expectativas, sin embargo, pronto se observaron desventajas, y una muestra de ello fue, que tras emplear este servicio por un periodo de tiempo de tres días, el número de medios de comunicación digital localiza- dos ascendía a más de 500, y lo que es peor, el número de informaciones que carecía de interés para la organización parlamentaria era desbordante.
Fue debido a la obtención de tan desconcertantes resultados, lo que llevó a replantear el modo cómo abordar los trabajos, y finalmente dio lugar a la idea, por un lado, de limitar el número de canales RSS de los que se quería consumir contenidos y, por otro lado, de no limitarse a gestionar informaciones estricta- mente periodísticas.
Al fin, tomadas estas decisiones, la realidad fue que la obtención de información publicada en la web a partir de los canales RSS definidos por los usuarios administradores, resultó ser en definitiva el enfoque que permitió obtener los resultados más ajustados a los requerimientos del Servicio de Documentación del parlamento aragonés.
Una vez definida la estrategia acerca de cómo y de donde se iban a capturar los contenidos, sólo quedaba comenzar a desarrollar propiamente el sitio web donde se materializaría todo lo ideado con el fin de poder llegar a disponer de un sistema de captura, catalogación y consulta de dossieres de información orien- tando su uso hacia una organización en concreto. A continuación, se describe cuales fueron los pasos seguidos desde el inicio del desarrollo.
En primer lugar, se procedió a la elección de la plataforma sobre la que construir el sitio web en cuestión, y la experiencia adquirida en anteriores proyectos, determinó que se optara por desarrollar el portal web de consulta mediante el empleo del framework, CMS o gestor de contenidos de libre distribución, Typo3. De- cisión la cual, facilitó en gran medida un desarrollo rápido al objeto de poder disponer de un primer proto- tipo que sirviera de prueba de concepto, y finalmente, la consolidación de un sitio web operativo. Además, este tipo de herramientas presenta también la ventaja de que, como gestor de contenidos web, permite a las organizaciones poder desarrollar portales de consulta con distintas arquitecturas de la información, en función del gusto o necesidades de las mismas.
El segundo paso, fue definir las estructuras de datos o tablas relacionales a contemplar en la base de datos que diera soporte al sistema.
Más adelante, se procedió a la programación del motor de búsqueda de contenidos a través de los ca- nales RSS y el motor de catalogación de las mismas de forma que se pudieran aprovechar los metadatos presentes en el código HTML de los contenidos sindicados y el resumén de los mismos que es disponible a través de los propios canales RSS.
Para esta fase del proyecto, se contó con el parser RSS de libre distribución denominado MagPie, que permitió realizar la lectura de distintos canales RSS sin importar la codificación en que se encontrasen los caracteres publicados a través de la web, UTF-8 o ISO-8859-1.
A pesar de que en esta ocasión, las distintas informaciones capturadas sólo iban a ser consultadas por usuarios de una única organización, como era el parlamento aragonés, cabría destacar, que a esta altura de desarrollo, se realizó un esfuerzo extra al objeto de que el sistema ideado pudiera funcionar en un am- biente multiorganizacional y colaborativo, donde una única una entrada sindicada, se pudiese replicar en distintos repositorios de información pertenecientes a cada una de las organizaciones contempladas, de forma que se minimizara el consumo de ancho de banda empleado para la conexión del equipo servidor hacia Internet.
Por último, se establecieron las configuraciones oportunas a través de la administración del portal y se di- seño e implemento el “look&feel” de la parte pública tal y como se muestra, al objeto de poder disponer de un portal de consulta de dossieres de información al que accederían fundamentalmente los dos tipos de usuarios del parlamento aragonés a los que nos hemos referido con anterioridad: por un lado, los diputa- dos del parlamento, y por otro lado, el personal del Servicio de Documentación de las Cortes de Aragón. A través del sitio web, los primeros como usuarios cliente a los que se destina el portal de consulta, po- drán acceder de primeras a consultar el histórico de informaciones capturadas y las últimas entradas que se han producido al sistema (informaciones relevantes publicadas en el día vigente), para más tarde, si la información obtenida resultase insuficiente o se quisiese ampliar, proceder a la consulta de los contenidos restringidos publicados a través del portal, mediante la introducción de sus credenciales personales. Por consulta de contenidos restringidos a través del portal de consulta se entenderá:
• Consulta de los grupos de usuarios a los que pertenece un usuario acreditado y los temas a los que tiene acceso por el hecho de pertenecer a éstos. También se muestran al usuario el resto de grupos de usuarios disponibles en el sistema y a los que no pertenece, con el fin de poder notificar a los usuarios administradores su interés por pertenecer a grupos adicionales que den acceso a otros temas presentes en la jerarquía de clasificación.
• Consulta de la jerarquía de clasificación de temas introducidos en el sistema por los usuarios admi- nistradores, al objeto de que el usuario acreditado pueda conocer la estructura jerárquica mediante la cual se clasifican los temas, que a su vez, sirven para organizar las noticias entrantes.
• Consulta de la relación de materias asignadas a las informaciones entrantes en función de si satisfa- cen una determinada ecuación de búsqueda.
• Consulta del conjunto de organismos y entidades de los cuales se consulta todas o parte de sus fuentes RSS disponibles. Para contemplar nuevas fuentes RSS los usuarios acreditados tendrán que ponerse en contacto con el personal administrador al objeto de que puedan proceder a su alta en el sistema.
• Consulta del dossier de información diario realizado conforme se da lugar a la entrada y clasifica- ción de contenidos sindicados a partir de la lectura de los canales RSS. Las distintas informaciones se clasifican en función de la jerarquía de clasificación establecida y cabe reseñar, que una informa- ción puede encontrarse localizada bajo distintos epígrafes.
• Y por último, consulta de informaciones en función del organismo o entidad en el que han sido pu- blicadas, del canal RSS a partir del cual han sido obtenidas, las materias que le han sido asignadas, y también, del tema al que pertenecen.
Por su parte, los usuarios administradores podrán a través de las pantallas de administración, proceder a realizar distintas operaciones de entre las que se destacaría el modo como se introducirían las ecuaciones de búsqueda, que es en definitiva, lo que permite realizar en la medida de lo posible, una adecuada clasifi- cación de contenidos entrantes de forma automática.
A continuación se muestra el interfaz web que permite la configuración de una ecuación de búsqueda.
Como se observa, la configuración de una ecuación de búsqueda contempla la introducción en el sistema, por parte de los usuarios administradores, de la siguiente información:
• Parámetros “Inicio” y “Final”: Son campos de tipo fecha que se podrían emplear para acotar en el tiempo la aplicación de una ecuación de búsqueda mediante la cual clasificar noticias entrantes. • Parámetro “Nombre consulta”: Se emplea para asignar un nombre descriptivo a cada una de las ecuaciones de búsqueda.
• Parámetro “Ecuación de búsqueda”: Ecuación de búsqueda que permite el empleo de operadores booleanos, definición de cadenas de texto, paréntesis, etc.
• Parámetro “Materia/s”: Son las materias a asignar a cada noticia que satisface la condición de búsqueda objeto de configuración.
• Parámetro “Tema/s”: Son los temas a asignar a cada noticia que satisface igualmente la condición de búsqueda y bajo los cuales se agruparán estas en el dossier diario de prensa.