プレスリリース


音声認識・合成統合環境 ATRASR+XIMERA
-音声入力アプリケーション開発向けの統合パッケージを開発-

  平成16年9月27日
(株)国際電気通信基礎技術研究所

 (株)国際電気通信基礎技術研究所(けいはんな学研都市 社長 畚野信義 略称ATR)は、 日本語、英語、中国語などの多言語間のコミュニケーションを実現するために、自然に話された音声を認識し、 翻訳し、目的言語の音声で合成する音声翻訳技術の研究を進めてまいりました。音声認識、音声合成は、 音声翻訳以外にも、ロボットなどに代表される音声対話システムの入出力としての応用が期待されることから、 沖電気工業(株)、(株)KDDI研究所、(株)日立製作所、三菱電機(株)など10社と共同で、 最新の研究成果をソフトウェアとして整備し(ソフトウェアの品質向上、マニュアルの整備、設計書の整備、 開発環境の整備)、開発環境としてパッケージ化いたしました。 この度、産学連携をはかり、これらの研究を積極的に促進するため、 大学等の教育研究機関にソースコードを含めた形で無償で提供することといたしました。
(※大学等への無償提供は終了しています。)
音声認識開発環境ATRASR(ATR Automatic Speech Recognition)の特徴の一つは、開発環境の充実にあります。 ATRASRのみで、音声認識で使用する音響モデル(音の特徴)や言語モデル(言語たとえば日本語の特徴)の作成から、 認識評価実験、音声対話システム開発、Windows用音声認識アプリケーション開発までを一貫して行うことができます。 ATRASRのもう一つの特徴は、騒音の多い実環境下での音声認識の頑健性を向上させたことです。 これを実現するための最新のアルゴリズムと実際の騒音を数種類組み合わせて作成した特別な音響モデルを備えています。
音声合成開発環境XIMERAは,音声合成エンジン,データベース作成ツール,および音声コーパスから構成されています。 音声合成エンジンは,波形素片接続方式に基づいています。 この方式は,大規模な音声コーパスから音声波形の素片を抽出し,接続して音声を合成するものであり, 現時点でもっとも肉声感の高い音声を合成できる手法です。XIMERAの音声コーパスは, 1名の女性ナレーターの音声を収録したものであり,数十時間という最大級の規模のものです。
音声合成エンジンは,WindowsおよびUNIX(Linux)用のソフトウェア開発キット(SDK)という形で提供されており,音声合成機能を有するアプリケーションソフトを簡単に開発することが可能です。また,データベース作成ツールが付属していますので,新たな話者の音声を録音すれば,アプリケーションソフトウェアの使用目的に適した合成音を作成することも可能です。