CHAPTER 2. LITERATURE REVIEW
2.6 STAKEHOLDER IDENTIFICATION AND PRIORITISING
recientemente se ha presentado por la secretaría de estado de telecomunicaciones y para la sociedad de la información del Ministerio de industria, energía y turismo de españa, el denominado informe sobre el estado de las tecnologías del lenguaje en España dentro de la agenda Digital para España, que ha llevado a cabo un estudio sobre la situación actual del procesamiento de lenguaje natural (pln) y de la traduc- ción Automática (tA) en españa, recopilando información que sustentan un análisis de las debilidades, amenazas, fortalezas y oportunidades.
el análisis dAFo elaborado por el grupo de expertos que ha participado en el informe, identifica un conjunto de debilidades, entre las que destacan las siguientes:
• desconocimiento de las características de esta tecnología de alto coste de inversión en localización y adaptación (a idiomas y dominios de aplicación) con recursos y procesadores lingüísticos específicos.
• desconocimiento del área de pln y tA y de la utilidad de los datos lingüísticos (textos, glosarios, ontologías, tesauros, etc.) generados por las Administraciones públicas.
• los recursos y procesadores, estándares de interoperabilidad, licencias y modelos de negocio ya consensuados en europa todavía no son ampliamente conocidos por las empresas en españa.
• la mayoría de empresas del sector son pymes y microempresas con escasa capa- cidad de inversión por falta de capitalización (la media de facturación anual es de
ya que desconocen los existentes o no pueden financiar su compra.
• las empresas españolas, con una media de 10,5 empleados solo tienen una media 1 doctor especialista empleado, mientras que la media europea es de una contra- tación de doctores del 30%.
• la mayoría de empresas del sector son pymes y microempresas con poca capacidad de comercialización e internacionalización de sus productos.
• Falta de una asociación empresarial que actúe como representante de los inte- reses industriales del sector en españa y proponga estrategias y busque apoyo especialmente en la comercialización de productos y la internacionalización de las empresas españolas.
• el número y cobertura de recursos y procesadores de pln y tA para el castellano, catalán, vasco y gallego es aún bastante inferior a los disponibles para el inglés. • la falta de una infraestructura común y asequible imposibilita que el sector cree
startups.
• carencia de recursos y procesadores lingüísticos para el español hispanoamericano. • la poca colaboración entre empresas y grupos de investigación impide la reutiliza- ción de datos y procesadores lingüísticos, elevando la inversión que deben realizar las empresas, restándoles efectividad en otros ámbitos como la innovación, la pro- moción comercial y la internacionalización.
• A pesar del esfuerzo de las academias españolas por crear materiales lingüísticos que podrían ser cruciales para el pln y tA, la falta de conocimiento e inversión coordinada dificulta la implantación de modelos de disponibilidad y licencias que garanticen la re-utilización.
• ofrecer datos lingüísticos de calidad en portales de datos abiertos requiere de inversión y planificación convirtiéndose en una actividad marginal de poco interés y poco sostenible sin financiación específica.
• el pln y la tA no están reconocidos como una disciplina en la academia nacional. es un ámbito de investigación interdisciplinar y la formación en estas tecnologías está dispersa por diferentes especialidades lo que dificulta su visibilidad.
• los grupos de investigación españoles han establecido más relaciones con empresas europeas, gracias a la financiación europea de i+d, que con la industria española con poca capacidad para invertir en innovación.
• la financiación de la investigación y la innovación en pln y tA es discontinua y dificulta el progreso y el mantenimiento de equipos de trabajo especializados. esta situación tiene un impacto negativo en los grupos de investigación nacionales que se sobredimensionan para aprovechar la financiación puntual pero no pueden man- tener los equipos ya formados.
• Falta general de coordinación de los programas de financiación españoles con los europeos.
• pérdida de inversión en formación de especialistas altamente cualificados por falta de un mercado laboral estable en el sector.
• desconocimiento de las capacidades de esta tecnología para lograr procesos mucho más eficientes en múltiples áreas de aplicación en la Administración pública, que si fuera usuaria crearía además referencias que apoyarían la comercialización y la internacionalización de las empresas.
Así mismo, el informe sustenta un conjunto de recomendaciones sobre las acciones necesarias para mejorar el crecimiento óptimo, la competitividad y la internaciona- lización de las empresas españolas del sector, entre las que destacan las siguientes: • Aumentar el número, la calidad, la variedad y la disponibilidad de los recursos y
procesadores lingüísticos que dan soporte a la utilización de esta tecnología para el español y las lenguas cooficiales para garantizar la misma disponibilidad de aplica- ciones avanzadas que para el inglés. Actualmente, hay una primacía de la industria de pln y tA global en inglés y en particular en el mercado norteamericano, donde el uso del español está aumentando y pronto será considerado como objetivo. • estructurar y fomentar la colaboración entre los agentes (administración, indus-
tria y los grupos de investigación). la poca colaboración entre empresas y entre empresas y grupos de investigación limita la reutilización de datos y procesadores comunes y aumenta innecesariamente las inversiones que realizan las empresas en desarrollar sus propios procesadores y recursos lingüísticos, restándoles efectividad en otros puntos de la cadena de valor como la innovación, la promoción comercial y su internacionalización. los interlocutores pueden ser la secretaría de estado de telecomunicaciones y para la sociedad de la información (setsi) por parte de la administración, la sociedad española para el procesamiento del lenguaje natural
inexistente todavía, que represente los intereses del sector de pln y tA en españa. • Hacer visibles las tecnologías de pln y tA en la administración y las grandes empre- sas del sector tic mediante acciones de difusión y formación para profesionales tic. • impulsar a las empresas españolas a consolidar una oferta de productos de calidad
para el español y mejorar su comercialización para llegar a tiempo de liderar el mercado internacional de productos para el español. la contratación pública y la compra pública innovadora pueden hacer de tractor del mercado en el sector tic para hacer visible su potencialidad en demostradores que aumenten la confianza de la demanda del mercado nacional e internacional. también es la contratación de la administración pública y las buenas relaciones público-privadas con las admi- nistraciones latinoamericanas (que se podrían fortalecer con convenios bilaterales) las que pueden dinamizar la internacionalización de estos productos y servicios en el menor tiempo posible.
• diseñar y poner en marcha laboratorios virtuales que reúnan la infraestructura lin- güística y tecnológica, la capacidad de computación de altas prestaciones y la formación necesarias para empresas del sector pln y tA, tic y futuras startups. todas las consultoras internacionales coinciden en que el pln será una tecnología clave para el análisis de Big data no estructurado. se espera una explosión de pro- ductos innovadores que ya surgen de startups y spinoffs en europa y América. Hay que trasladar la probada excelencia investigadora española y sus resultados a la industria que debería ser apoyada para conseguir optimizar la cadena de valor del sector reduciendo la inversión en recursos y procesadores lingüísticos que pueden ser comunes.
• la experiencia de la administración y las empresas españolas en la gestión de las cuatro lenguas co-oficiales puede hacer de españa un punto de referencia en la gestión del multilingüismo y las soluciones que ofrece la tecnología del pln y tA. en europa hay una creciente preocupación por el obstáculo que supone la diversidad lingüística para el Mercado Único digital europeo, por ejemplo.
• Fortalecer y mantener el esfuerzo en la investigación, el desarrollo y la innovación en tecnologías en pln y tA más allá de la explotación de recursos y procesadores lingüísticos en español o multilingües. garantizar una financiación continuada en i+d+i, con programas de retención de talento, doctorados industriales y la inclusión de esta especialidad en programas específicos servirá para asegurar una posición de la industria y la investigación española más allá de la explotación de recursos y procesadores lingüísticos en español o multilingües.
también es digno de mención el informe promovido por la comisión europea en 2012, en el marco de la red de excelencia MetA-net, que describe el estado de madurez de las tecnologías y los recursos lingüísticos de soporte al español, entre otros idiomas . la evaluación, que se ha realizado por “juicio experto”, a partir de las opiniones propor- cionadas por expertos, valora el grado de desarrollo de las herramientas, tecnologías y aplicaciones lingüísticas, por un lado y de los corpus, recursos léxicos y gramáticas, por otro, de soporte al español.
tabla 5
Grado de desarrollo de las tecnologías lingüísticas en español
[Escala del 0 (muy bajo) al 6 (muy alto)]
Cantidad
Disponi-
bilidad Calidad Cobertura Madurez
Sosteni- bilidad
Adapta- bilidad
Tecnologías linguísticas: herramientas, tecnologías y aplicaciones
Reconocimiento de voz 2 3 4 2 2 2 4 Síntesis de voz 3 3 4 4 4 3 4 Análisis gramatical 3 3 4 4 4.5 2.5 4.5 Análisis semántico 1.5 2 3 2 2.5 2.5 2.5 Generación de texto 0 0 0 0 0 0 0 Traducción automática 3 2 2 2 4 2 2
Recursos lingüísticos: recursos, datos y bases de conocimiento
Corpus textuales 3 3 4 4.5 4 4.5 4.5 Corpus de discurso 4 2 4 4 4 3 3 Corpus paralelos 2 4 2 2 2 3 3 Recursos léxicos 3.5 3 4.5 3 4 33 Gramáticas 1 4 5 2 2 2 2 Fuente: META-NET (2012).
1. el procesamiento del habla aparece como una tecnología ligeramente más madu- ra que el procesamiento del texto escrito. de hecho, esta tecnología ya ha sido integrada con éxito en muchas aplicaciones cotidianas, como, por ejemplo, los sistemas de diálogo hablado y las interfaces de voz para móviles y navegadores para automóviles.
2. la investigación realizada hasta la fecha, ha conducido con éxito al diseño de soft- ware de calidad media-alta para el análisis de textos básicos, tales como herramien- tas de análisis morfológicos y de análisis sintáctico. sin embargo, las tecnologías que requieren un procesamiento lingüístico profundo y un conocimiento semántico, son todavía muy incipientes.
3. en cuanto a los recursos, existe un corpus textual de referencia de gran tamaño para el español, que contiene una mezcla equilibrada de géneros, pero que no es de fácil acceso para la investigación. existen también diversos corpus anotados con información sintáctica, semántica y de discurso, pero no son suficientes, ni en riqueza de anotaciones ni en tamaño, para satisfacer la creciente necesidad de información lingüística.
4. en particular, hay una carencia de corpus paralelos que constituyen la base de los sistemas de traducción automática estadísticos e híbridos. existen corpus paralelos entre el español y el inglés, así como entre el español y el resto de lenguas oficiales en españa. sin embargo, faltan corpus paralelos entre el español y otros idiomas. 5. Muchas de estas herramientas, recursos y formatos de codificación no se ajustan a
los estándares del sector y no se pueden mantener de forma eficaz. se requiere un plan concertado para estandarizar las interfaces de las aplicaciones y los formatos de los datos.
6. existe una situación legal confusa que restringe la utilización de textos digitales, como las publicaciones en línea, para su uso en investigación, por ejemplo para entrenar modelos estadísticos de la lengua. los investigadores, junto con los polí- ticos, deben intentar establecer leyes o regulaciones que les permitan utilizar para la investigación, textos a disposición del público.
7. debería intensificarse la cooperación entre la comunidad dedicada a las tecnologías lingüísticas y las relacionadas con la Web semántica y el movimiento Linked Open Data, con objeto de establecer una base de conocimientos digitales mantenida de forma colaborativa, que pueda ser utilizada en los sistemas de información basa-
dos en la web y como base de conocimiento semántico para las aplicaciones de tecnología lingüística. lo ideal sería que este esfuerzo fuera abordado de forma multilingüe a escala europea.