機械翻訳にやさしく
Google のオフィシャルブログをいつも読もう、読もうと思っているんだけど、英語が面倒で常に 3 桁の未読フィードがたまっている状態……。これではいかんなと思い直し、不本意ながら「Yahoo! 翻訳」のお世話になることにした(ホントは、原文で読みたいんだけど、残念ながら時間がない。翻訳結果を斜め読みするのが精一杯)。
いくつかの記事を翻訳していくうちにおもしろいことに気づいた。なかなか翻訳精度がよいようなのだ。そこそこ読めるというか、ある程度背景のわかる話題とかだと、ほぼ誤解することなく理解可能。しかし、ある記事を翻訳すると、極端に翻訳精度が落ちる。オリジナルの英文を見てみる。英語としては特に変な文章ではないけど、すこしくだけた表現が多く含まれているみたい。やはりそういう「こなれた」表現だとまだ機械翻訳には厳しいようだ。
「Yahoo! 翻訳」のガイドページに「Yahoo! 翻訳のコツ」というページが用意されている。これは主に日英翻訳(日本語の原文を英語に翻訳)のときの Tips を書いているわけだけど、読んで見ると機械翻訳の特性や日本語と英語の違いがあぶり出し的に見えてくる。以下、同ページ群より引用。
- 日本語入力で気をつける点
- なるべく漢字を使う
- 漢字の間違いに注意する
- 長音記号はハイフンではなく、「ー」を使う
- 略語は略さずに書く
- なるべく漢字を使う
- 文章を短くする
- 動詞の切れ目や「~が」(接続助詞)、「~だが」などで、文章を分割する
- 文章を分割した後に、必要に応じて適切な接続詞や主語を補う
- 不要な言い回し(「~ということ」「~ものである」「~したいと思う」など)を取り除く
- 重複する表現を避ける
- あいまいな表現を避ける
- 適切な助詞を使う
- 省略を補う
- 修飾語がかかる範囲を明確にする
- 訳文を編集する
- 単数・複数を確認する
- 時制の一致に気をつける
- 代名詞を確認する
- 前置詞を確認する
「日本語入力で気をつける点」で語られていることは、主に辞書の参照に関する問題。「なるべく漢字を使う」なんかは、ひらがなが多いと、翻訳作業の前処理の形態素解析(文章を単語単位で分解する作業)の障害になってしまう。ここでつまづくと、翻訳結果はめちゃくちゃになってしまう。よく言われる例は「ここではきものをぬいでください」が「ここでは着物を脱いでください」なのか、「ここで履物を脱いでください」なのか……というもの。確かに、これは文脈(店の入り口の貼り紙なのか、健康診断の会場での指示なのか)がなければ、人間でもその判断は厳しい。「漢字を間違いに注意する」なんてのも、辞書検索の障害になるので要注意。
「文章を短くする」は、主に構文に関するもの。形態素解析は、高速かつ精度高く処理できるのでいいのだが、構文解析っていうのは、単語の前後関係だけでなく、文章内のすこし離れた単語の関係を見なくてはいけなかったりするわけで、これは難易度がぐっと高くなる。日本語は簡単な接続詞で文章をゆるやかにつなげていくことができるけど、それが逆説関係なのか、順接関係なのかその関係性が曖昧だったりすることも、この構文解析の難易度を高める一因なんだろう。
「あいまいな表現を避ける」は、英語と日本語の語用の違いが主な話題。「具体的な動詞を使う」というのは、「英語は動詞が中心、日本語は名詞が中心」というよく言われる話にも通じるもの。「適切な助詞を使う」というのは、英語は厳格な語順によって主語や目的語が識別できるのに対して日本語では適切な助詞が付与されていれば語順にはさほどこだわらないということだったり、助詞に与えられている役目の多さ(機械翻訳の立場から見ると曖昧さ)に帰因するものだろう。
機械翻訳は、計算機による自然言語処理のかなりの要素を詰め込んだかなり高度な作業をこなしているわけだけど、どうも一般的には評価が低い。翻訳結果がこなれた日本語でなかったり、文章の解析に失敗したりして、ヘンな訳になってしまうことが多いからだろう。その結果だけを見て、笑うのは簡単なことなんだけど、その前に元の文章が翻訳ソフトにもわかりやすい文章になっているかどうか、もう一度確認するという作業をやってみてはどうだろう。それだけで、けっこう精度上がるものだ。
あ、あと、安い翻訳ソフトを買って、「なんだこんな単語も訳せないの?」っていうのも要注意。安い翻訳ソフトには基本語彙しか登録されていない。専門用語なんかはそれらよりも高価なソフトにしか登録されてなかったりするわけ。辞書作りというのは、なかなか時間のかかる作業で、このコストってのは馬鹿にならないらしいよ。
0 件のコメント:
コメントを投稿