TAUS - Enabling better translation

Thursday
May 17th
Text size
  • Increase font size
  • Default font size
  • Decrease font size
Home

Каким видится ближайшее будущее машинного перевода с точки зрения науки?



ПЕРЕВОД В ДВАДЦАТЬ ПЕРВОМ ВЕКЕ

Перевод в XXI векеВполне возможно, что первое десятилетие XXI века окажется самым продуктивным для исследований в области машинного перевода с

начала 50 - 60-х годов прошлого века. По слухам, только в США исследования в области автоматизированного перевода было вложено около 20 миллионов долларов (это более 120 миллионов в сегодняшнем эквиваленте). В 1966 году правительство перестало финансировать эти исследования после печально известного отчета Консультативного комитета по автоматизированной обработке естественного языка (ALPAC).

Наша отрасль нуждается в объективных, свободных от предубеждений разработках. Сама по себе она не в состоянии финансировать фундаментальные исследования и широкие испытания, необходимые для совершенствования существующих систем и внедрения новых моделей. Хотя, по сути, от этого зависит, сможем ли мы совершить прорыв к новому поколению коммерческих решений, который обычно происходит спустя годы после того, как изобретатели обращаются к новым задачам после первых открытий. 

Что касается государственного финансирования, существуют постоянно действующие программы финансирования статистического МП под эгидой Управления перспективных исследований министерства обороныв США. Ярким примером является также программа Seventh Framework Technology в Европе, крупнейшим проектом которой является EuroMatrixPlus на основе открытого исходного кода. Множество научных исследований в области МП также ведется в университетах и исследовательских институтах Европы, Азии (в частности, в Китае и Индии) и Южной Африки. Кроме того, крупнейшие IТ-корпорации, такие как IBM и Microsoft, продолжают финансировать проекты в области обработки естественного языка в целом и технологий перевода в частности.

Исследования и разработки вне университетов

В то же время многие ориентированные на рынок исследования отходят от форм, традиционных для учебных заведений и крупных IТ-лабораторий, в направлении быстро реализуемых промышленных инноваций. Об этом свидетельствуют и опыт гигантской работы Google в области статистического перевода. Дешевые ресурсы и доступ к бесплатным инструментам приводят к появлению поставщиков услуг в области автоматизации перевода (иногда возникающих на базе научно-исследовательских подразделений), которые ведут исследования и разработки для клиентов, ищущих более быстрые технологические решения для практических переводческих задач.

Moses (пакет инструментов с открытым исходным кодом для статистического машинного перевода), который сейчас широко испытывается в отрасли, является, пожалуй, наиболее значительным результатом таких согласованных усилий и символом влияния модели определяемых данными процессов как в научной, так и в деловой среде. Действительно, список научных публикаций только на английском языке по статистическому МП и смежным темам быстро увеличивается. Эти публикации отражают новую волну специализации и кооперации, а также одобряемое стремление к обмену результатами.

Некоторые исследовательские программы концентрируются на создании в краткосрочной перспективе опытных моделей для некоммерческих целей в сфере военной разведки (в США) или доступа граждан к информации (в Европейском союзе). Несмотря на то что результаты действующих проектов в области статистического МП почти наверняка сведутся к тому, чтобы более заметно улучшить процессы МП, до сих пор нет четкой модели, которая определяла бы эффективный и проверенный способ реализации всех этих преимуществ на рынке.

Одним из ключевых направлений в новых исследованиях является попытка определить, как знания синтаксиса и семантики, заложенные в машину, могут обогатить и укрепить языковые модели, лежащие в основе методов, определяемых данными. Вероятно, многие исследователи вернутся к рассмотрению оптимальной архитектуры семантического аннотирования для поддержки процессов перевода, основанных на знаниях.

В целом наличие такого множества центров внимания со стороны исследователей служит хорошим отражением перспектив переводческой отрасли, несмотря на неизбежные тупики и ложные надежды. Чем больше людей будут участвовать в построении гипотез, тестировании и выборе верного решения путем оценки альтернативных моделей для всех аспектов перевода, тем вероятнее будет извлечение пользы из наиболее жизнеспособного конечного продукта. В то же время финансирование исследований ограничено. Поэтому необходимы практические сравнительные испытания для создания конкурентной среды, в которой результаты исследований в области МП оценивались бы на стадии подготовки к выпуску.

Чтобы получить представление о том, как сами исследователи видят будущее автоматизированного перевода, мы поинтересовались прогнозами на ближайшие десять лет от м ряда ученых. Вот пять областей, в которых мы можем ожидать развития событий.

Языковая прозрачность и рост объемов динамического контента

Одним из ключевых изменений в стратегической роли практического перевода станет появление языковой прозрачности. Другими словами, все лингвистическое содержимое будет по своей природе готово к переводу. Пользователи смогут получать доступ к информации на своем родном языке независимо от ее источника, и любая платформа доступа, будь то браузер или любое другое приложение, будет включать автоматизированный перевод по умолчанию. Процесс перевода такого контента будет происходить незаметно, как операция переключения в инфраструктуре.

В свою очередь, это означает, что автоматический перевод в значительной степени будет охватывать процессы обмена контентом, такие как чаты, передача динамического контента в мобильных сетях и потоки данных в социальных сетях. Такие переводы будут практически бесплатными и невысокого качества и, следовательно, будут находиться преимущественно вне сферы профессиональных переводческих услуг.

Между тем материалы с высокими требованиями к качеству перевода (правительственные материалы, юридическая документация, документация по продуктам, стратегически важная информация, брендированный контент), которые считаются преобладающими, будут переводиться в целом таким же образом, что и сегодня, с использованием следующего сочетания: ручной перевод, машинный перевод с постредактированием и технологии памяти перевода с расширенными возможностями (Advanced Leveraging).

Появление языковой прозрачности текстового содержимого будет обусловлено не конкретными открытиями в области языковых технологий, а достижениями в развитии инфраструктуры, такими как высокая пропускная способность сетей, «облачные» вычислительные ресурсы, совместное использование данных и интеллектуальный анализ данных.

Совместное использование данных и ресурсов

Несмотря на то что TAUS Data Association (TDA)и другие репозитории, такие как MyMemory и Google Translate, аккумулируют огромный объем параллельных языковых данных, в ближайшем будущем нужно будет решить ключевую задачу: обеспечить доступными данными ученых и пользователей - тех, кому они нужны для улучшения языковых моделей.

Еще одной предпочтительной и новой областью деятельности, вероятно, станут пока обойденные вниманием двуязычные записанные материалы (например, записи синхронного и последовательного устного перевода с совещаний и конференций), которые помогут в разработке технологий перевода устной речи в режиме реального времени. Поэтому в планы как академических, так и производственных исследовательских групп будет входить создание инфраструктуры, облегчающей сбор этих материалов и предоставление доступа к ним как к надежному исследовательскому и производственному ресурсу.

Что касается производственных систем, будет возможно более избирательное использование информационных ресурсов. Пользователи смогут знать точно, в каких ситуациях для выполнения той или иной задачи автоматизации перевода нужен очень большой объем данных, а когда достаточно использовать выборочный набор данных. Другими словами, технологии будут двигаться в направлении применения более рациональных методов доступа к данным и их использования.

Влияние автоматизации перевода на переводческое сообщество

Исследователи придерживаются общего мнения о том, что в будущем переводчики будут по-прежнему играть центральную роль в создании высококачественных переводов. Они также будут вносить значительный вклад в доработку и исправление результатов МП в качестве постредакторов, а также обеспечивать обратную связь, необходимую для оптимизации систем МП. Постепенное накопление отредактированных текстов позволит создать внушительный массив данных для тренировки систем МП.

Несомненно, появится больше исследований, целью которых будет поиск способов оптимизации таких симбиотических отношений в рамках разных рабочих процессов с помощью улучшенных инструментов для постредакторов. Однако маловероятно, что это будет иметь какие-то последствия для отрасли в целом, кроме постепенного повышения эффективности работы. Мы вправе ожидать, что для сохранения конкурентоспособности прогрессивные технические переводчики примут на вооружение новые инструменты и технологии, появляющиеся в результате исследований.

Исследования и разработки, изменяющие систему понятий

Практика показывает, что существует ограниченное число действительно серьезных проблем, которые отделяют нас от полной автоматизации перевода, и большее количество менее существенных проблем МП, которые будут решены в течение следующего десятилетия. Проблемы, которые требуют теоретического прорыва (то есть, по своей природе не разрешимы искусственным способом) связаны в большей степени с концептуальными вопросами компьютерной лингвистики, нежели чем с технологическими и конструкторскими трудностями практического уровня.

Разрешимые проблемы уже включены в планы исследований и разработок. Одна из них — это оптимизация обработки языков со сложной морфологией или неиндоевропейским порядком слов. Эти особенности обычно снижают производительность машинной обработки для некоторых языковых пар. Такая системная оптимизация почти наверняка будет включать добавление аннотаций к существующим параллельным данным, что поможет машине «учиться» эффективнее.

Что касается давней фантазии об идеальном искусственном переводчике, общепринятая гипотеза состоит в том, что система, способная систематически подражать переводчику-человеку (или даже превосходить его), должна будет обращаться к модели внешнего мира (объективным знаниям) для выполнения ключевых критериев качества. Однако пока считается невозможным запрограммировать машину таким образом, чтобы она понимала семантическую составляющую текста.

Безусловно, компьютер можно запрограммировать для использования знаний о языке, статистических шаблонов, лингвистических правил, лексических данных или параллельных текстов. Но у компьютера нет доступа к базе знаний, которая помогла бы ему принять правильное решение о том, какое из возможных значений того или иного выражения будет приемлемым в данном контексте.

Хотя некоторые ученые будут продолжать изучать разные пути повышения степени автоматизации перевода, большую часть усилий в рамках новых исследований в области МП планируется направить на улучшение практических результатов автоматизации.

Основываясь на том, что было названо «чрезмерной эффективностью данных», большинство ученых, занимающихся проблемами МП, уверены, что существует потребность в еще более абстрактных языковых моделях, которые позволили бы справиться с колоссальной сложностью лингвистических объектов и их зависимостью от контекста, а так же использовать полученные данные для совершенствования процесса перевода.

Другими словами, переводческие данные, постепенно накопленные в течение последних тридцати лет, найдут применение и помогут ученым предложить способы создания более эффективных систем перевода. И это весьма действенный пример культуры обмена знаниями.


Соавторы

Выражаем глубокую признательность следующим ученым за сотрудничество при написании этой статьи:

Кристиан Буате (Christian Boitet), Университет Жозефа Фурье, Гренобль
Даниель Хардт (Daniel Hardt), Копенгагенская школа бизнеса и LanguageLens
Энтони Хартли (Anthony Hartley), Лидский университет
Кевин Найт (Kevin Knight), Институт информатики и Университет Южной Каролины
Алон Лейви (Alon Lavie), Университет Карнеги — Меллона и Safaba Translation Solutions
Жозеф Мариани (Joseph Mariani), Парижский университет
Андрей Попеску-Белис (Andrei Popesco-Belis), Исследовательский институт Idiap, Мартиньи (Швейцария)
Марк Зелигман (Mark Seligman), Spoken Translation Inc.
Халиль Симаан (Khalil Simaan), Амстердамский университет
Грегор Турмайр (Gregor Thurmair), Linguatec
Энди Уэй (Andy Way), Дублинский университет и Applied Language Solutions


Перевод выполнен специалистами компании Логрус

 

Add comment


Security code
Refresh

SUBSCRIBE TO OUR FREE NEWSLETTERS AND ALERTS

Learn about the best translation technologies, open platforms and interoperability, the possibilities of machine translation. Subscribe to our alerts and keep up to date with the latest events, articles and reports.

JOIN OUR MAILING LIST

OTHER TAUS SITES

BECOME A MEMBER

TAUS is an innovation think tank and interoperability watchdog for the translation industry. Membership provides a wealth of benefits. Join TAUS