TAUS - Enabling better translation

Thursday
May 17th
Text size
  • Increase font size
  • Default font size
  • Decrease font size
Home

Como os cientistas veem o futuro imediato da tradução por máquina?



Tradução de Osmar Nonato Nascimento de Lima

TRADUÇÃO NO SÉCULO 21

Translation in the 21st CenturyA década de 2000, é muito provável, que tenha sido a mais produtiva sobre a pesquisa em tradução automatizada - em termos internacionais, desde os anos 1950 e inícios dos anos 60.Dizia-se naquela época, que, só nos EUA cerca de 20 milhões dólares (mais de 120 milhões em valores de hoje) foram destinados à pesquisa de tradução automática - o governo deixou de financiar por volta de 1966, depois do infame relatório ALPAC.

Nossa indústria precisa de pesquisa imparcial, sem preconceitos. Nunca poderia financiar por si só, em profundidade - a grande variedade de pesquisas, ensaios, testes de erro necessários para melhorar os sistemas e inovar com novos modelos. Todos dependemos deste repentino aumento de atividade para motivar a uma nova geração de soluções de mercado, que, normalmente, se materializam anos depois que os pesquisadores que primeiro os inventaram, e então - passando a ocupar-se de outros desafios. Ao mesmo tempo, que o cenário de P&D vem mudando.

Em relação a financiamentos públicos, existem vários programas de financiamento em andamento para MT com base em estatísticas pelo DARPA, nos Estados Unidos e na Europa por meio do Sétimo Programa Marco de Tecnologia; dos quais o mais importante é o projeto de open-source EuroMatrixPlus, ou código aberto EuroMatrixPlus. Existem também muitos outros projetos de pesquisa acadêmica de MT em muitas universidades e institutos de pesquisa, desde a Europa até a África do Sul - da China à Índia. E as grandes corporações de TI como IBM e Microsoft continuam a financiar o processamento de linguagem natural em geral e projetos de tecnologia da tradução em particular.

Pesquisa & Desenvolvimento além da universidade

Ao mesmo tempo, grande parte da pesquisa em vias de comercialização também está abandonando os tradicionais ambientes acadêmicos e os grandes laboratórios informatizados pelo rápido mundo da inovação industrial, prova disso é o esforço enorme de tradução do Google na isolada tradução estatística. A disponibilidade de recursos mais baratos e ferramentas de código aberto também estão facilitando o surgimento de ágeis parceiros de automação de serviços de tradução (por vezes, provenientes de ocasiões de departamentos de pesquisa acadêmica, que realizam P&D para clientes que buscam soluções mais rápidas de tecnologia para resolver os problemas de tradução do mundo real.

O conjunto de ferramentas de código aberto de MT em base estatísticas, de Moses, que está sendo amplamente testado pela indústria, é provavelmente, o resultado mais significativo recente dessa atividade conjunta para a indústria de tradução, e agora um símbolo da influência do paradigma orientado a dados em pesquisa científica e no mundo dos negócios. Na verdade, somente em inglês a lista de publicações acadêmicas de MT estatísticas e assuntos relacionados está crescendo a passos largos - refletindo, assim, uma nova onda de especialização e colaboração, e um interesse especial no compartilhamento em resultados.

Alguns destes programas de pesquisa, estão apostando no curto prazo - na criação de protótipo para fins não comerciais, com objetivos nos campos da inteligência militar (nos EUA), para facilitar acesso à informação aos cidadãos da Comunidade Europeia. Embora que os resultados desses projetos de SMT, colocados em andamento, irão contribuir para a melhoraria, em sentindo mais amplo, dos processos MT do mundo real de forma mais ampla - não havendo um modelo claro de como seus benefícios possam chegar ao mercado de forma eficiente, maneira eficaz e testada na prática.

Uma das áreas chave para a nova pesquisa é o estudo sobre como a aquisição de conhecimentos sintáticos e semânticos, por parte da máquina, pode enriquecer e potencializar os modelos de linguagem que na atualidade ficam por trás dos enfoques baseados em dados. Então, é provavelmente que mais pesquisadores voltem a focar sua atenção em arquiteturas adequadas de anotação semântica para alimentar os processos de tradução ricos em conhecimentos.

No geral, esta multiplicidade de centros de interesse na pesquisa é um bom sinal para a indústria de tradução como um todo - a despeito de inevitáveis falsas ilusões e becos sem saída a que inevitavelmente conduz. Quanto mais gente formulando hipóteses, realizando testes e selecionando um caminho crítico através de diversos modelos alternativos de qualquer aspecto da tradução, e por último, nos ajudará a todos nos benefícios no que diz respeito a que " o mais apto" sobrevive. Por outro lado, o financiamento para atividades de investigação é finita, pelo que faz necessário ter uns pontos de referência para oferecer um ambiente competitivo e provar os resultados da pesquisa em MT numa etapa de pré-produção.

Para ajudar a compreender como os pesquisadores imaginam o futuro da automação de tradução, pedimos a vários cientistas que expressem seu ponto de vista sobre o que pode acontecer na próxima década. Aqui estão cinco áreas em que podemos (ou não) esperar novidades interessantes:

Transparência de linguagem e aumento de conteúdo transitório

Um acontecimento chave no papel estratégico da tradução no mundo real será o surgimento de "transparência linguística"; Outra maneira de dizer que (todos) os conteúdos linguísticos estarão inerentemente "prontos para tradução'. Os usuários poderão acessar o conteúdo em seu próprio idioma independentemente de sua procedência e todas as plataformas de acesso incluirão, como padrão; traduções automatizadas, seja por meio de um navegador ou qualquer outro aplicativo. O processo de tradução do conteúdo será de forma invisível, como um interruptor na infraestrutura.

Isto fará, por sua vez, que a tradução automatizada afete sobretudo a interações 'transitórias' de conteúdo: chat, o conteúdo dinâmico das redes móveis, e os fluxos de dados dos meios de comunicação social. As atividades de tradução serão praticamente gratuitas, não exigindo uma ótima qualidade, e, portanto, ocorrendo a produção, em grande parte, fora da órbita da indústria de serviços de tradução.

Nesse ínterim, em aquelas áreas que entendemos que precisam, mais que qualquer outra, de traduções com alta qualidade (governamentais, jurídicas, de produtos, estratégicas, de alto risco, de conteúdo de marca), estas seguirão realizando-se mais ou menos da mesma forma que hoje em dia, recorrendo a uma combinação de pessoas, tradução por máquina + pós-edição e aproveitamento avançado.

Os avanços que motivarão a transparência linguística do conteúdo textual não serão resultado de qualquer descobrimento concreto na tecnologia de linguagem, mas de avanços de infraestrutura, como maior banda larga, os recursos de computação em nuvem, o compartilhamento de dados e a garimpagem inteligente de dados.

Os dados e compartilhamento de recursos

Embora a TAUS Data Association (TDA) e outros repositórios, como MyMemory e fazendas de conteúdos do Google Translate foram acumulando uma enorme quantidade de dados linguísticos paralelos, uma das questões fundamentais no futuro imediato será o de colocar essas coleções de dados à disposição de cientistas e outras pessoas que precisam deles - para enriquecer seus modelos de linguagem.

Outra área que tem despertado muito interesse recentemente e que, com toda probabilidade, seguirá fazendo isso é o das gravações de conteúdo oral, bilíngue (por exemplo, as gravações de interpretações simultâneas e consecutivas de reuniões e conferências) um recurso que ainda está para ser explorado e que o ajudará a desenvolver a tradução da linguagem falada em tempo real. Parte da agenda de trabalho P&D, tanto do ponto de vista acadêmico quanto industrial, consistirá em desenvolver o tipo de infraestrutura que facilitará a coleta e disponibilidade deste material como um recurso confiável para a pesquisa e produção.

Para sistemas de produção, será possível ser muito mais seletivo sobre a utilização de recursos de dados. Os usuários serão capazes de saber exatamente quando grandes quantidades de dados são relevantes para realizar uma determinada tarefa de automação da tradução , e quando será suficiente, com a seleção muito mais restrita desses dados. Em outras palavras, haverá uma tendência para fazer que tanto os dados de acesso e como sua utilização se realizem de maneira mais inteligente.

O impacto da automação da tradução na comunidade de tradutores

O sentimento geral entre os pesquisadores é que, no futuro, os tradutores continuarão a desempenhar um papel central na produção da tradução de alta qualidade. Também contribuirão, inevitavelmente, ao ajuste de refinamento e reparação dos textos de MT como de pós-editores por meio de ciclos de realimentação que são vitais para a otimização dos sistemas de MT. O acúmulo gradual de textos pós-editados irá se transformar numa enorme coleção de dados de treinamento que poderá ser decisivo para os sistemas de MT.

Como é lógico, haverá naturalmente mais pesquisas sobre formas de otimizar esta relação simbiótica dentro dos vários tipos de fluxos de trabalho, com pacotes de ferramentas melhorados para os pós-editores. Mas o mais improvável é que, o rendimento da indústria como um todo, somente se produzem avanços graduais. Podemos esperar que os tradutores técnicos, de mentalidade avançada, adotem as novas e potentes ferramentas resultantes desses estudos para seguirem competitivos.

O P&D que muda o paradigma

A sabedoria atual diz que há uma pequena quantidade de problemas extremamente difíceis de ser resolvidos para a tradução automática, e outra quantidade maior que se podem abordar com mais otimismo e isto será resolvido na próxima década. Os problemas que exigem um avanço teórico - ou que resultam ser inerentemente insolúveis por meios artificiais - envolvem questões conceituais em linguística computacional, em vez de problemas de tecnologia em ambientes de engenharia do mundo real.

Os problemas que podem ser resolvidos já estão na agenda de trabalho de P&D, ou Pesquisa e Desenvolvimento. Um deles é otimizar o manejo de idiomas com morfologias complexas ou com ordens de palavras não-indo-europeias, dois fatores que normalmente dificultam que a máquina ofereça o resultado de textos de boa qualidade em alguns pares de idiomas. O mais provável é que este tipo de otimizações de sistema se adicionem anotações aos dados paralelos existentes para ajudar ao sistema a aprender com maior eficácia.

Quanto à velha fantasia do tradutor artificial perfeito, a hipótese à mesa é que um sistema capaz de sistematicamente imitar (ou até mesmo superar) a um tradutor humano - o sistema precisará a recorrer a "modelos de mundo" - a um conhecimento do mundo real - para superar os entraves de qualidade crítica. Mas até agora tem sido impossível programar uma máquina para que compreenda a intencionalidade semântica de um texto.

Os computadores podem, naturalmente, ser programados para que apliquem conhecimentos linguísticos, padrões estatísticos de fluência ou regras linguísticas, dados lexicais, ou conteúdos paralelos. Mas eles não podem acessar a uma base de conhecimentos que os ajude a decidir corretamente como eliminar as ambiguidades de uma expressão concreta num determinado contexto.

Embora haverá cientistas que continuarão a estudar formas díspares de automatização cada vez mais à capacidade de tradução humana, tudo evidenciando, como vimos, a que a maior parte do esforço desta nova onda de pesquisas sobre MT vai focar nos resultados práticos da tecnologia de automatização.

Com base no que foi chamado "a eficácia irracional de dados, a maioria dos cientistas, dedicados a MT, acreditam que há uma necessidade de modelos de linguagem muito mais abstratos que possam lidar com a imensa complexidade dos objetos linguísticos e sua sensibilidade ao contexto, e depois utilizar os dados disponíveis para melhorar o processo de tradução.

Em outras palavras, os dados da indústria de tradução que veem se acumulando, de modo gradual, nos últimos trinta anos ou mais - servirão para ajudar os cientistas a encontrar técnicas com as quais construir, por sua vez, melhores sistemas de tradução de produção. Parece que nos encontramos diante de um exemplo muito produtivo da cultura de compartilhamento.


COLABORADORES

Desejamos expressar nossos agradecimentos aos seguintes cientistas por contribuir com suas opiniões neste artigo:

Christian Boitet, Université Joseph Fourier, Grenoble
Daniel Hardt, Copenhagen Business School e LanguageLens
Anthony Hartley, Leeds University
Kevin Knight, Information Sciences Institute e University of Southern California
Alon Lavie, Carnegie Mellon University e Safaba Translation Solutions
Joseph Mariani, da Universidade de Paris
Andrei Popesco-Belis, Idiap Research Institute, Martigny
Mark Seligman, Tradução falados Inc.
Khalil Simaan, University of Amsterdam
Gregor Thurmair, Linguatec
Andy Way, Dublin City University e Applied Language Solutions




Русский (Translated by Logrus)


 

Add comment


Security code
Refresh

SUBSCRIBE TO OUR FREE NEWSLETTERS AND ALERTS

Learn about the best translation technologies, open platforms and interoperability, the possibilities of machine translation. Subscribe to our alerts and keep up to date with the latest events, articles and reports.

JOIN OUR MAILING LIST

OTHER TAUS SITES

BECOME A MEMBER

TAUS is an innovation think tank and interoperability watchdog for the translation industry. Membership provides a wealth of benefits. Join TAUS