TRADUCCIÓN EN EL SIGLO XXI
La década del 2000 puede llegar a ser la más productiva para la investigación en traducción automática a nivel mundial desde la de los 50 y principios de los 60. Se rumoreaba que en aquel momento, sólo en EE.UU, se dedicaron unos 20 millones de dólares americanos (más de 120 millones al tipo de cambio actual) a la investigación en traducción automática; el gobierno dejó de financiarla alrededor de 1966 tras el infame informe ALPAC.
Nuestra industria necesita una investigación imparcial, sin prejuicios. Nunca podría financiar por sí sola la gran variedad de investigaciones, ensayos y pruebas de error necesarios para mejorar los sistemas e innovar con nuevos modelos. Todos dependemos de este repentino aumento de actividad para impulsar una nueva generación de soluciones de mercado, que, normalmente, se materializan años después de que los investigadores que las inventaron pasaran a ocuparse de otros desafíos. Al mismo tiempo, este panorama de la I+D está cambiando.
En cuanto a la financiación pública, hay en marcha varios programas para la TA estadística, que en Estados Unidos corren a cargo de DARPA en los Estados Unidos y, en Europa, pasan por el Séptimo Programa Marco de Tecnología; el más importante es el proyecto de código abierto EuroMatrixPlus. También existen muchos proyectos académicos de investigación de TA en un gran número de universidades e institutos de investigación que abarcan desde Europa a Sudáfrica y desde China a la India. Y las principales empresas dedicadas a la informática, como IBM y Microsoft, continúan financiando el procesamiento del lenguaje natural en proyectos de tecnología en general y de traducción en particular.
I + D más allá de la universidad
Al mismo tiempo, gran parte de la investigación cercana al mercado está abandonando los tradicionales ámbitos académicos y los grandes laboratorios informáticos por el rápido mundo de la innovación industrial, prueba de ello es el enorme esfuerzo de Google en el apartado de la traducción estadística. La disponibilidad de recursos más baratos y de herramientas de código abierto también facilita la aparición de hábiles socios de servicios de automatización de la traducción (provenientes en ocasiones de departamentos de investigación académica) que realizan I + D para clientes que buscan soluciones técnicas más rápidas a problemas reales del mundo de la traducción.
Moses, un kit de herramientas de código abierto para TA estadística que se está probando en buena parte del sector, es, con toda probabilidad, el resultado más significativo de los que ha dado recientemente esta actividad concertada para la industria de la traducción, y constituye un símbolo actual de la influencia del paradigma de la potencia de los datos en la investigación científica y en el mundo de los negocios. De hecho, ya solamente en inglés, la lista de publicaciones académicas sobre TA estadística y temas relacionados está creciendo a pasos agigantados, lo cual refleja una nueva ola de especialización y colaboración, y un interés especial en compartir resultados que es de agradecer.
Algunos de estos programas de investigación han puesto sus miras en la creación de prototipos a corto plazo para objetivos no comerciales en los campos de la inteligencia militar (en EE.UU.) o en facilitar a los ciudadanos el acceso a la información (en la UE). Aunque es casi seguro que los resultados de estos proyectos de SMT que se han puesto en marcha contribuirán a la mejora, en un sentido más amplio, de los procesos de TA en el mundo real, no existe un modelo claro de cómo sus beneficios podrían llegar al mercado de manera eficiente y probada.
Una de las áreas clave para la nueva investigación es el estudio de cómo la adquisición de conocimientos sintácticos y semánticos por parte de la máquina puede enriquecer y potenciar los modelos de lenguaje que en la actualidad subyacen a los enfoques basados en datos. Es probable que más investigadores vuelvan a centrar su atención en arquitecturas adecuadas de anotación semántica para alimentar los procesos de traducción ricos en conocimientos.
En general, esta multiplicidad de centros de interés en la investigación es un buen augurio para la industria de la traducción en su conjunto, a pesar de los muchos espejismos y callejones sin salida a los que inevitablemente conduce. Cuanta más gente haya formulando hipótesis, realizando pruebas y seleccionando una ruta crítica a través de los distintos modelos de cualquier aspecto de la traducción, más posibilidades habrá de que, a la larga, todos nos beneficiemos del superviviente “más apto”. Por otro lado, la financiación para actividades de investigación es finita, por lo que es necesario tener unos puntos de referencia para ofrecer un entorno competitivo y probar los resultados de la investigación en TA en una etapa de preproducción.
Para poder ver cómo imaginan los investigadores el futuro de la automatización de la traducción, le pedimos a varios científicos que expresaran su punto de vista sobre lo que puede suceder en la próxima década. He aquí cinco áreas en las que podemos (o no) esperar novedades interesantes:
Transparencia lingüística y aumento del contenido transitorio
Un acontecimiento clave en el papel estratégico de la traducción en el mundo real será la aparición de la "transparencia lingüística"; otra forma de decir que (todos) los contenidos lingüísticos ya estarán intrínsecamente "listos para traducirse". Los usuarios podrán acceder al contenido en su propio idioma independientemente de su procedencia, y todas las plataformas de acceso incluirán, por defecto, traducciones automatizadas ya sea a través de un navegador o de cualquier otra aplicación. El proceso de traducción del contenido será invisible, como un interruptor dentro de la infraestructura.
Esto hará, a su vez, que la traducción automatizada afecte sobre todo a interacciones de contenido “transitorias” como el chat, el contenido dinámico de las redes móviles y los flujos de datos de los medios de comunicación social. Estas actividades de traducción serán prácticamente gratuitas y no requerirán una calidad optima, por lo que se producirán en gran medida fuera de la órbita de la industria de los servicios de traducción.
Mientras tanto, en aquellas áreas que entendemos que necesitan, más que ninguna otra, traducciones de alta calidad (gubernamentales, jurídicas, de producto, estratégicas, de alto riesgo, de contenido de marca), éstas seguirán realizándose más o menos de la misma forma que hoy en día, recurriendo a una combinación de persona, traducción automática + post-edición y aprovechamiento avanzado.
Los avances que impulsarán la transparencia lingüística del contenido textual no serán resultado de ningún descubrimiento concreto en la tecnología de lenguaje, sino de avances en la infraestructura, tales como un mayor ancho de banda, los recursos de computación en nube, el intercambio de datos y la minería inteligente de datos.
Los datos y el intercambio de recursos
Aunque TAUS Data Association (TDA) y otros repositorios como las granjas de contenidos de MyMemory y Google Translate han ido acumulando una enorme cantidad de datos lingüísticos paralelos, uno de los problemas fundamentales del futuro inmediato será poner estas colecciones de datos a disposición de los científicos y de otras personas que los necesiten para enriquecer sus modelos de lenguaje.
Otro campo que ha despertado mucho interés recientemente y que, con toda probabilidad, seguirá despertándolo es el de las grabaciones de contenido oral bilingüe (por ejemplo, las grabaciones de interpretaciones simultáneas y consecutivas de reuniones y conferencias), un recurso que todavía está por explotar y que ayudará a desarrollar la traducción del lenguaje hablado en tiempo real. Parte de la agenda de I+D, tanto desde el punto de vista académico como del industrial, consistirá en desarrollar el tipo de infraestructura que facilitará la recogida y la aportación de este material como un recurso fiable para la investigación y la producción.
En el caso de los sistemas de producción, se podrá ser mucho más selectivo en el uso de los recursos de datos. Los usuarios podrán saber con precisión cuándo van a necesitarse grandes cantidades de datos para realizar un determinado trabajo de automatización de la traducción, y cuando bastará con una selección mucho más restringida de esos datos. En otras palabras, habrá una tendencia a hacer que tanto el acceso a los datos como su uso se realicen de una manera más inteligente.
El impacto de la automatización de la traducción en la comunidad de traductores
El sentir general entre los investigadores es que, en el futuro, los traductores seguirán desempeñando un papel central en la producción de traducciones de alta calidad. También contribuirán, inevitablemente, a la puesta a punto y a la reparación de los textos de TA como post-editores a través de los circuitos de retroalimentación que son vitales para la optimización de los sistemas de TA. La acumulación gradual de textos posteditados se convertirá luego en una enorme colección de datos de entrenamiento que puede ser decisiva para estos sistemas,
Como es lógico, se seguirán estudiando las formas de optimizar esta relación simbiótica dentro de los distintos tipos de flujos de trabajo, con paquetes de herramientas mejorados para los post-editores. Pero lo más probable es que, en el rendimiento de la industria en su conjunto, sólo se produzcan avances graduales. Es de esperar que los traductores técnicos de mentalidad avanzada adopten las nuevas y potentes herramientas que resulten de esos estudios para seguir siendo competitivos.
La I+D que cambia el paradigma
La creencia actual es que existe un conjunto pequeño de problemas que planteará serias dificultades a la traducción automática, y otro conjunto mayor que puede abordarse con más optimismo y se resolverá en la próxima década . Los problemas que requieren un gran avance teórico (o que resultan ser intrínsecamente irresolubles por medios artificiales) afectan a aspectos conceptuales de la lingüística computacional más que a aspectos tecnológicos del entorno de la ingeniería del mundo real.
Los problemas solubles ya están en la agenda de la investigación y desarrollo. Uno de ellos es optimizar el tratamiento de idiomas con morfologías complejas o con órdenes de palabras no indoeuropeos, dos factores que normalmente hacen que a la máquina le resulte difícil ofrecer textos de buena calidad en algunos pares de idiomas. Lo más probable es que en este tipo de optimizaciones de sistema se añadan anotaciones a los datos paralelos existentes para ayudar al sistema a aprender con mayor eficacia.
En cuanto a la vieja fantasía del traductor artificial perfecto, la hipótesis que se baraja es que, para poder emular de forma sistemática (o incluso superar) a un traductor humano, un sistema tendrá que recurrir a "modelos del mundo" (a un conocimiento del mundo real) con el fin de salvar el difícil obstáculo de la calidad. Pero hasta ahora ha sido imposible programar una máquina para que comprenda la intencionalidad semántica de un texto.
Está claro que se puede programar a los ordenadores para que apliquen conocimientos lingüísticos, patrones estadísticos de fluidez, reglas lingüísticas, datos léxicos o contenidos paralelos. Pero ellos no pueden acceder a una base de conocimientos que les ayude a decidir de manera plausible cómo eliminar la ambigüedad de una expresión concreta en un contexto concreto.
Aunque habrá científicos que seguirán estudiando formas de automatizar cada vez más la capacidad de traducción humana, todo apunta, como hemos visto, a que la mayor parte del esfuerzo de esta nueva ola de investigaciones sobre la TA se centrará en los resultados prácticos de la tecnología de automatización.
Sobre la base de lo que ha dado en llamarse "la eficacia irracional de los datos", la mayoría de los científicos dedicados a la TA creen que hay una necesidad de modelos de lenguaje mucho más abstractos que puedan abordar la inmensa complejidad de los objetos lingüísticos y su sensibilidad al contexto para luego utilizar los datos disponibles en la mejora del proceso de traducción.
En otras palabras, los datos que ha ido acumulando la industria en los últimos treinta años servirán para ayudar a los científicos a encontrar técnicas con las que construir, a su vez, mejores sistemas de traducción de producción. Parece que nos encontramos ante un ejemplo muy productivo de la cultura de compartir.
COLABORADORES
Deseamos expresar nuestro agradecimiento a los siguientes científicos por contribuir con sus opiniones a este artículo:
Christian Boitet, Université Joseph Fourier, Grenoble
Daniel Hardt, Copenhagen Business School and LanguageLens
Anthony Hartley, Leeds University
Kevin Knight, Information Sciences Institute and University of Southern California
Alon Lavie, Carnegie Mellon University and Safaba Translation Solutions
Joseph Mariani, University of Paris
Andrei Popesco-Belis, Idiap Research Institute, Martigny
Mark Seligman, Spoken Translation Inc.
Khalil Simaan, University of Amsterdam
Gregor Thurmair, Linguatec
Andy Way, Dublin City University and Applied Language Solutions




