Googleは完全な翻訳に成功するか?

Googleは米国時間2009年11月19日,同社が運営する動画投稿サイト「YouTube」で,動画再生時に自動で字幕を付ける機能「Auto-caps(automatic captions)」を追加と発表した。


GoogleYouTube動画に自動で字幕,日本語への翻訳も可能に
http://itpro.nikkeibp.co.jp/article/NEWS/20091120/340811/

Googleが動画に自動的に翻訳文をつける機能を開発したようです。もしリアルタイムでの処理であれば、これは同時翻訳を行っていることと同じ機能といえます。まだ、人がするような精度の高い翻訳はできないと思いますが、この先開発を進めていくと人が行うものと区別がつかなくなるくらいの品質になる可能性があると思っています。


言語翻訳とは本質的には言語間での言語ゲームといえます。言語ゲームとは以下で言及したようなものです。

言語とは、世界と記号の対応ですが、その意味は言語ゲームによって決定されていきます。言語ゲームとは、ウィトゲンシュタインによって作られた考え方で、言葉とそれが使われる状況の積み重ねで言葉の意味が決まっていくというものです。


「キラーフレーズ」がキラーではない理由
http://d.hatena.ne.jp/shat/20090826/1251302011

例えば、特定の英文というのは特定の日本語の文に翻訳することができます。このとき、日本語から見て英語は一つの世界として考えることが可能です。通常の言語ゲームでは世界と特定言語での対応が考えられますが、このときは、アルファベットが生成する記号の世界と日本語間での言語ゲームを考えることができます。この対応の蓄積によって英文に対する日本語が決定されていきます。そして、これは翻訳にとって本質的な処理だと考えられます。


一方、Googleが採用している言語翻訳アルゴリズムは統計的機械翻訳です。このアルゴリズムは大量の等しい意味を持つ英文と日本語文のペアを元に未知の英文を翻訳するというものです。つまり、統計的機械翻訳というのは言語ゲームによる意味づけに基づいた本質的な言語翻訳処理であるといえます。もしも、Googleが大量の計算リソースと翻訳文のペアを使って翻訳処理を行うとすると人が行っている翻訳にいくらでも近づいていくことが可能ではないかと思います。


成功するに当たって重要なことは、翻訳文のペアを集めることです。手段としては、同じ意味を持つ文をクローラで集めたり、ユーザに間違った翻訳文を直させるインタフェースをつけたりといったことがあると思います。もちろん、十分なデータが集まった後でも言語は変化していくものなので、常に修正のインプットを吸収しながらシステムで学習されていくのではないかと思います。こうなると人の知性を学習していくシステムが射程に入ってきそうです。