新しいGoogle翻訳(GNMT)を自分でも検証してみた

2016年11月にひっそりとアップデートされたGoogle翻訳(日英・英日)の精度がすごいと話題になっています。

新翻訳システムは9月末に発表(関連記事)。原文全体を読み込み、1つのユニットとして翻訳し出力する仕組みで、既存のフレーズベースの機械翻訳技術(PBMT)と比較して、翻訳エラーが55~85%減少したと同社は説明していました。

Google翻訳が進化!? 精度が向上したと話題に - ねとらぼ

新しく導入された技術はGoogle Neural Machine Translation system (GNMT)と呼ばれ、ディープラーニング(正確にはRNN)を用いた機械翻訳です。具体的には、英語ですが下記記事で説明されています:

research.googleblog.com

機械翻訳が得意なテキスト

いくつかの例文については、下記で翻訳が試行されています。

d.hatena.ne.jp

これを読む限り、「おお、確かにすごいなあ……」と驚きました。特に吉野家コピペの自然さが恐ろしいです。

しかし、文句を言うとすれば、例文のチョイスが少し偏っていると思いました。まずは例文の概要をリストアップしてみます:

これらに共通することは「対話のない文章」であることです。 つまり、機械翻訳によってかなり有利なテキストであるといえます。 それは機械翻訳の真価を計るにはちょっと不足するなあと思いました。

私がぱっと思いついた「機械翻訳が苦手とするテキスト」は、例えばこんな感じでしょう:

  • 短いテキスト(文法的に一意に定まりにくい)
  • 対話文(特に代名詞の多い文)
  • 物語文

なぜなら、これらはテキスト自体に翻訳のヒントが極端に少ないからです。これらのテキストを自然に翻訳するためには、人間なら自然に使える文脈や常識が不足しているのです。

この記事では、私の主観的なチョイスで機械翻訳が苦手そうな例文をあえてGoogle翻訳に食わせようと思います。

免責事項

  • あまり気力がないので、例文のチョイスはかなり雑です。
  • 日英翻訳と英日翻訳は本来は評価として区別するべきですが、今回はあまり気にしません。
  • 下記のテストは機械学習の検証としては不足します。詳細は上記解説ページや論文等をご覧ください。
    • もっと意地の悪い例文があればご教授いただければ幸いです(笑)

機械翻訳が苦手なテキストその1: 短いテキスト(英→日)

まずは短いテキスト、特に文法的に一意に定まらない文です。

人工知能(特にディープラーニング)の一般向け解説書として定評のある松尾豊『人工知能は人間を超えるか』から引用してみます。

「He saw a woman in the garden with a telescope.」

(中略)

たいていの人は、これを「彼は望遠鏡で、庭にいる女性を見た」と訳す。読者の方もおそらくそう読んだのではないかと思う。

(中略)

実際、グーグル翻訳では、「彼は望遠鏡で庭で女性を見た」と訳される。庭にいたのは女性ではなく彼だと解釈している。ところが、人間にとっては、これはちょっと不自然である。

(松尾豊『人工知能は人間を超えるか』 p.102、強調は筆者)

(注:この本は初版が2015/3/10付、第14刷(筆者引用)が2016/6/23付である。)


さて、新しいGoogle翻訳(GNMTバージョン)はどうでしょうか。

彼は望遠鏡で庭の女性を見た。

f:id:sky-y:20161113003543p:plain

……悔しいですが、合格でしょう。この翻訳だと確かに「庭にいたのは女性である」と読めます。

本当はもっとサンプルを試すべきですが、今回は割愛させてください……

機械翻訳が苦手なテキストその2: 対話文・物語文

次に、対話文・物語文で検証してみます。

『走れメロス』日→英

この文章では、特に代名詞の扱い文脈に注目します。

日本語版(原著)

「待て。」
「何をするのだ。私は陽の沈まぬうちに王城へ行かなければならぬ。放せ。」
「どっこい放さぬ。持ちもの全部を置いて行け。」
「私にはいのちの他には何も無い。その、たった一つの命も、これから王にくれてやるのだ。」
「その、いのちが欲しいのだ。」
「さては、王の命令で、ここで私を待ち伏せしていたのだな。」

(太宰治 走れメロス (青空文庫))

英語版(Google翻訳)

"wait."
"What to do, I have to go to the royal castel before the sun goes down, let go."
"Do not leave me anywhere, leave all of the possessions."
"There is nothing else beside life, I have a single life, I will give it to the king."
"That, I want life,"
"Well, under the command of the king, you were ambusading me here."

f:id:sky-y:20161113003601p:plain

評価

すごい……

何がすごいって、

  • 「どっこい放さぬ」→「Do not leave me anywhere」の自然さ
  • 「その、たった一つの命も、これから王にくれてやるのだ」「その、いのちが欲しいのだ。」→「I have a single life, I will give it to the king」「That, I want life」の代名詞の処理(ちょっとおしい)

あたり。この辺は従来の機械学習が「難関」としていた部分だと思います。

特に、代名詞は文脈に依存するため、それをうまく処理していることは特筆すべきです。

確かに人間から見ると「おしい」部分はあるものの、致命的に破綻していないあたりに進歩を感じます。

『注文の多い料理店』日→英

この文章では、代名詞の扱い文脈(特に長文の解釈)に加えてオノマトペにも注目します。

日本語版(原著)

二人の若い紳士が、すっかりイギリスの兵隊のかたちをして、ぴかぴかする鉄砲をかついで、白熊のような犬を二疋つれて、だいぶ山奥の、木の葉のかさかさしたとこを、こんなことを云いながら、あるいておりました。

「ぜんたい、ここらの山は怪しからんね。鳥も獣も一疋も居やがらん。なんでも構わないから、早くタンタアーンと、やって見たいもんだなあ。」

「鹿の黄いろな横っ腹なんぞに、二三発お見舞もうしたら、ずいぶん痛快だろうねえ。くるくるまわって、それからどたっと倒れるだろうねえ。」

(宮沢賢治 注文の多い料理店 (青空文庫))

英語版(Google翻訳)

Two young gentlemen took a form of a British soldier and together with a shivering gun, two dogs like a white bear came together and told the story of the leaves of Konoha far behind the mountain, like this While I was there.

"The mountain here is nothing wrong, neither birds nor beasts live inhabited, so I do not mind anything, so I'd like to do it early with Tantaan."

"It will be quite painful if you make a couple of shots to deer with the yellow deer on deer.And it turns round and then it will collapse in the end."

f:id:sky-y:20161113003616p:plain

評価

この辺になるとちょっとしんどいものの、許容範囲という感じです。多くのオノマトペはうまく英語の形容詞に変換できてます。「タンタアーン」が「Tantaan」のまま出てるのはご愛敬かと。

微妙なのが「鹿の黄いろな横っ腹なんぞに、二三発お見舞もうしたら、ずいぶん痛快だろうねえ。」→「It will be quite painful if you make a couple of shots to deer with the yellow deer on deer」かなあと。

  • 主語(代名詞):そもそも原著自体の解釈が一意でない(主語がどちらの紳士ともとれる)
    • Google翻訳は「It(形式主語)」「you」に定めているが、さしあたり不都合はない
  • deer多すぎ
    • この辺から「アルゴリズムのクセ」が読み取れるかも?
  • 「痛快」→「(It will be quite)painful」はちょっと意味がズレている

まとめ

一言で言えば、「純粋なテキスト」について「ある程度の文脈」なら今回のGoogle翻訳でかなりうまくいっていると思います。特に代名詞の扱いがかなり巧妙です。

ただ、これからの課題としては、リアルタイム会話翻訳に応用するのはまだしんどいかな?と思います。なぜなら、リアルタイムの会話には、純粋なテキスト以外に下記も積極的に利用するからです:

  • その瞬間の情報
    • 位置、時刻、天気、仕事の進捗、周囲の環境や情報など
  • 非言語コミュニケーション
  • 身体的な感覚
    • どこに歩いているか?立ってるのか座っているのか?
    • 介護や対人援助の場合は、相手の感情や体温や姿勢に関する情報

これらの情報(機械から見れば「センサーデータ」)を取り入れることは、また純粋な自然言語の翻訳タスクとは違う話になります。

その意味では、まだまだ「人工知能が人間を越える」日は遠いと私は思います。とはいえ、今回のGoogle翻訳のアップデートが私の予想を超えていたことも確かで、その意味では油断ならない状況だと改めて実感しました。

藤原 惟

参考文献

人工知能は人間を超えるか (角川EPUB選書)

人工知能は人間を超えるか (角川EPUB選書)