TAUS - Enabling better translation

Thursday
May 17th
Text size
  • Increase font size
  • Default font size
  • Decrease font size
Home

科学者は機械翻訳の明日をどのように見ているか?



21世紀の翻訳

Translation in the 21st Century2000年代は、1950年代や60年代前半以来、世界的な機械翻訳研究が一番成果を上げた10年間かもしれない。50年代や60年代前半は、米国だけでもおよそ2000万ドル(現在のレートに換算すると1億2000万ドル超)が機械翻訳研究につぎ込まれたが、1966年頃に政府の資金援助は打ち切られた。そのきっかけは、悪名高い ALPAC報告書であるというのが、もっぱらのうわさだ。

われわれの業界には公平で偏見のない研究が必要だ。業界単独では、深みのある研究、幅広い実験、システム改良やモデル革新に不可欠なエラーテストを実行する資金調達は難しい。われわれは皆、商業ソリューションの新時代を切り開く活動のうねりに依存している。そのうねりは大抵、ソリューションを最初に考案した研究者が次の課題に移った数年後に起こる。それと並行して、研究開発の状況は変化していく。

公的資金について言えば、米国ではDARPA(米国防総省国防高等研究事業局) 、欧州ではセブンスフレームワーク・テクノロジー・プログラムの資金援助を受けた統計的機械翻訳のプロジェクトが進行中であり、後者の最大のものが、オープンソース化された EuroMatrixPlus プログラムである。その他にも、欧州、南アフリカ、中国、インドに至るまで、数多くの大学や研究所でさまざまな学術的機械翻訳研究プロジェクトが進められている。また、IBMやマイクロソフトなどの主要IT企業は、自然言語処理全般、特に翻訳技術プロジェクトへの資金援助を引き続き行っている。

大学以外での研究開発

同時に、グーグルの大規模な統計翻訳の試みが示すように、商品化テストの大半も、従来の学術的な環境や大規模なITラボからスピーディな産業イノベーション路線へと軸足を移しつつある。安価なリソースや自由に使えるオープンソースツールに後押しされて、自動翻訳サービスパートナーも出現してきた。そのなかには、現実世界の翻訳が抱える問題への早急な技術解決を求める顧客のために、研究開発を行ってきた学術研究部門から分離独立したサービスパートナーもあった。

業界で幅広く試されているMosesというオープンソースの統計的機械翻訳のツールキットは、おそらく翻訳業界の協力活動の中で一番重要な最近の成果だ。これは現在、科学研究とビジネス界の双方において、データ駆動パラダイムの影響力の象徴となっている。確かに、統計的機械翻訳と関連テーマに関する学術出版のリストは、英文だけでも飛躍的に増えている。これは専門化と連携の新たな動向や、成果共有への取り組みを反映したものである。

こうした研究プログラムの一部は、非商用目的の軍事情報分野(米国)や市民の情報アクセス(欧州連合)などの短期間でのプロトタイプ作成を見据えている。これら進行中の統計的機械翻訳プロジェクトの成果が、広範囲にわたって実社会での機械翻訳プロセスの改善に役立つのはほぼ確実だが、こうした恩恵が効果的で実用に耐え得る方法で市場に届く道筋を示す明確なモデルはできていない。

最近の主要な研究分野の一つとして、機械特有の構文/意味情報をどのように活用すれば、現在のデータ駆動型アプローチの基礎となっている言語モデルを改善、強化できるのかを判断する試みがある。知識豊富な翻訳プロセスを供給するために、意味注釈の適切なアーキテクチャーの研究に回帰する研究者は今後も増えるだろう。

全体的に見て、研究の主要な関心が複数存在することは、あてにならない期待や行き詰まりなど不可避な事柄も多いものの、翻訳業界全体にとってはよい兆候だ。翻訳のどの要素においても、仮説をたて、テストし、クリティカルパスを特定して代替モデルを提案する研究者が増えれば、最終的には全員が勝ち残った『最適』モデルの恩恵を受けられる。同時に、研究費には限りがあるので、試作段階で機械翻訳研究の結果をテストする競争環境を提供するためにも、実用的なベンチマークが必要だ。

研究者が翻訳自動化の将来をどう考えているかを知るために、TAUSは多くの科学者に今後10年間を予測してもらった。次に挙げるのが、興味深い進展が見込めそうな(あるいは見込めそうでない)5分野である。

言語透過性と一過性コンテンツの増加

現実世界の翻訳の戦略的役割における重要な発展のひとつとして、『言語透過性』が注目を集めるようになるだろう。言い換えれば、(すべての)言語コンテンツは本質的に『即時翻訳対応』になるということだ。ユーザーはコンテンツの発信地に関係なく、自分の言語でアクセスできるようになる。そして、どんなアクセス・プラットフォームにも、たとえ他のアプリケーションのブラウザ経由だとしても、自動翻訳機能がデフォルトで組み込まれるだろう。このようなコンテンツの翻訳プロセスは、インフラに埋め込まれた目に見えぬ1つのスイッチとして処理されることになる。

同様に、自動翻訳の多くは、チャット、携帯ネットワークの動的コンテンツ、ソーシャルメディアストリームなどの『一過性』コンテンツにも対応することになるだろう。こうした翻訳活動は、事実上無料であり、最高品質を必要としないので、ほとんどが翻訳サービス業界の領域外で発生する。

一方、高品質が求められる主流の翻訳(政府、法務、製品、戦略、高リスク、ブランドコンテンツ)は、おおよそ現在と同じような方法、すなわち、翻訳者/機械翻訳とポストエディティング/高度なレバレッジの組み合わせで翻訳されるだろう。

文書コンテンツの言語透過性を促進する進歩は、言語技術における特定の飛躍的発明からではなく、より高い処理能力、クラウド・コンピューティング・リソース、データ共有、情報データマイニングなどのインフラの進歩から生まれるだろう。

データとリソースの共有

TAUSデータ協会(TDA)や、MyMemory、グーグルトランスレートなどのコンテンツファームのリポジトリは、言語のパラレルデータを大量に蓄積しているが、こうした収集データを科学者やその他の人々に利用可能にし、言語モデルを豊かにするために活用してもらうことが近い将来の課題になってくるだろう。

また、今後注目すべき領域として、いまだ未開発のバイリンガル音声録音コンテンツ(たとえば、会議や学会での同時・逐次通訳の録音)が挙げられる。これは、リアルタイムの音声対音声翻訳を開発する基礎となるだろう。したがって、信頼性のある研究/製造リソースとしてデータの収集・利用を容易にするインフラの開発が、学界と産業界双方の研究開発の課題の一つとなる。

自動翻訳システムのために、データリソースをさらに厳選することもできる。そうすれば、どれだけの大量なデータが、与えられた自動翻訳作業に必要かということや、どれだけ使用するデータの範囲を絞れば作業がうまくいくかということをユーザーは正確に知ることができる。これを別の言い方をすれば、データへのアクセスや使用をもっとスマートに行う傾向が生まれてくるということである。

翻訳自動化が翻訳者コミュニティに与える影響

翻訳者は、今後も引き続き、高品質の翻訳を実現するための中心的な役割を果たすというのが、研究者の一般的な見解だ。また、翻訳者は、ポストエディット編集者として、機械翻訳システムを最適化するために不可欠なフィードバック・ループを通じて、機械翻訳の出力データの調整・修正にも間違いなく貢献するだろう。ポストエディット後のテキストを徐々に蓄積していけば、それはやがて、機械翻訳システムのための大規模なトレーニングデータベースになるだろう。

この共存関係をさまざまな種類のワークフロー内で最適化する方法については、ポストエディット編集者用の改良されたツールセットとともに、当然ながら、さらなる研究が行われるだろう。しかし、業界全体としては、性能のさらなる向上以外のものはないように思われる。このような研究から生まれた新しいパワーツールは、先進的な考えを持つ技術翻訳者が競争力維持のために採用するだろう。

パラダイムを変える研究開発

完全自動翻訳において解決が非常に困難な問題は少なく、ある程度の問題の大半は今後10年以内に解決されるだろう、というのが現在の通説だ。理論的な解明を要する問題、または人工的手段では本質的に解決不可能だと判明した問題は、現実社会のエンジニアリング環境での技術問題というより、コンピュータ言語における概念的問題を含んでいる。

解決可能な問題はすでに研究開発課題に入っている。その一つは、複雑な形態構造を持つ言語と、インド・ヨーロッパ語族とは異なる語順を持つ言語の取り扱いの最適化だ。一般にどちらの場合も、多くの言語ペアでスムーズな機械翻訳が困難な状態である。このような種類のシステムの最適化には、機械がより効果的に学習するために、既存のパラレルデータへの注釈の追加を含むことになる。

完璧な人工翻訳機の完成という昔の夢物語に関しては、人間の翻訳者を体系的にまねる(さらには上回る)能力を持つシステムは、品質上の致命的な障害を克服するために、『ワールドモデル』(現実社会の知識)を活用する必要がある、という仮説が検討されている。しかし、現時点では、テキストの語義の意図を機械に理解させるプログラミングは不可能であることが分かっている。

もちろんコンピュータでは、言語知識、流暢性の統計的パターンの知識、言語法則、語彙データ、パラレルコンテンツの各知識を利用できるようにするプログラミングは可能だ。ところが、与えられた文脈の中で、ある表現の曖昧さを妥当な方法で解消するすべを正しく判断するための知識ベースに、コンピュータはアクセスできない。

人間の翻訳能力をますます自動化するさまざまな方法を研究し続ける科学者も中にはいるだろう。だが、機械翻訳研究活動の新しい波におけるその大半の試みは、これまで見てきたように、自動化技術の実用的な成果に的を絞っている。

機械翻訳の研究者のほとんどは、いわゆる『データの不合理な有効性』に基づき、言語対象物の途方もない複雑さと文脈依存性を取り扱うことができ、手持ちのデータを翻訳プロセス改良のために使用できる、もっと抽象的な言語モデルの必要性を確信している。

つまり、業界が過去30年以上にわたって徐々に蓄積した翻訳データを科学者が活用すれば、より優れた翻訳システム構築の技術を提供する助けとなるだろう。これこそ、生産性の高い共有文化の一例ではないだろうか。


執筆協力者

本記事の執筆にあたり、以下の科学者の方々(敬称略)のご協力に感謝いたします。

Christian Boitet, Université Joseph Fourier, Grenoble
Daniel Hardt, Copenhagen Business School and LanguageLens
Anthony Hartley, Leeds University
Kevin Knight, Information Sciences Institute and University of Southern California
Alon Lavie, Carnegie Mellon University and Safaba Translation Solutions
Joseph Mariani, University of Paris
Andrei Popesco-Belis, Idiap Research Institute, Martigny
Mark Seligman, Spoken Translation Inc.
Khalil Simaan, University of Amsterdam
Gregor Thurmair, Linguatec
Andy Way, Dublin City University and Applied Language Solutions





Русский (Translated by Logrus)

 

Add comment


Security code
Refresh

SUBSCRIBE TO OUR FREE NEWSLETTERS AND ALERTS

Learn about the best translation technologies, open platforms and interoperability, the possibilities of machine translation. Subscribe to our alerts and keep up to date with the latest events, articles and reports.