プレスリリース

あらゆる人名、地名を辞書登録せずに自動で音声認識、翻訳
-未登録語を含む音声を認識、翻訳可能な技術を開発-

(株)ATR音声言語通信研究所  平成12年10月30日

(株)エィ・ティ・アール音声言語通信研究所(京都府相楽郡精華町 関西文化学術研究都市 国際電気通信基礎技術研究所内 代表取締役社長 山本誠一)は、 多言語間での自然な会話を翻訳するための研究を進めてまいりました。 これまでの音声翻訳における技術的な制約としまして、 辞書に登録されていない単語すなわち未登録語を含む発声を取り扱うことができないという問題がありました。 今回開発いたしました未登録語に対する音声翻訳技術はこの従来の問題点を解決するもので、 人名、地名といったすべてを辞書に登録しきることができない単語に対し、 辞書登録なしに音声翻訳を可能とする技術です。 例えば新聞にでてくる日本人名のほとんどについて姓と名を自動的に認識しそれに応じた翻訳ができるようになりました。
今までにも未登録語に対するいくつかの処理技術が知られております。 しかしながら従来の技術では未登録語は単に辞書にない単語としてしか取り扱うことができず、 それがどのような意味を持つ単語かまでは同定できないため、そのままでは翻訳を行うことができませんでした。 今回開発された技術では未登録語は検出されると同時にそれがどのような種類の(人の姓や地名といった) 単語かも同時に同定され、それらの情報が翻訳処理に引き渡されます。 翻訳処理ではこの単語の種類の情報を用いて的確な翻訳を行うことが可能となります。
今回の技術では未登録語はその種類ごとにモデル化が行われます。 モデル化を行う時の知識としては個々の未登録語が文の中でどのような場所に現れるか (たとえば「様」の前なら人名らしい等)という文中での出現場所に関する知識、未登録語の長さ (人名ならば3ないし4音節が多い)に関する知識、音のつながり (「やま」、「たに」といったつながりが人名には多い)に関する知識を用います。 これらの知識を同時に用いることによって未登録語の検出とその種類の同定が同時に行われるしくみとなっております。

図:未登録語の同定のしくみ

拡大画像


※(株)ATR音声言語通信研究所は、2001年に研究プロジェクトを終了しています。