〔2011/10/6〕NEC、話し言葉からキーワードを高精度に抽出する音声認識技術を開発

 NECは、人が自然に発話した音声(話し言葉)から、人名や地名などの複数のキーワードを高精度に認識し抽出する、音声認識技術を開発した。
今回開発した技術は、入力された音声に、例えば「人名」と「地名」といった複数種類のキーワードが含まれる場合でも、キーワードの種類に適したきめ細かい認識処理を行うことで、高精度な認識を実現するもの。
本技術をレストラン検索などの条件入力に適用することで、エリアや料理名といったキーワードが、ユーザーが自然な話し言葉で入力した音声から正しく認識、抽出されるようになり、従来個々に入力する必要のあった複数の検索条件が一回の発声で正しく入力できるようになる。また、本技術をスケジュール管理ソフトなどの情報入力に適用した場合、外出先などのキーボードが使いにくい場面でも、日付や参加者、場所などのスケジュール情報のキーワードを、音声を用いて手軽に入力できるようになる。
このたび、本技術を用いて、TV番組検索、レストラン検索などのシステムを想定した性能評価を行った結果、検索キーワードの音声認識誤り率を、従来比で約3割削減できた。昨今、スマートフォンや携帯電話などのモバイル機器において、情報の検索などを行う際の簡便な入力方法として、音声入力への期待が高まっている。しかし、従来の音声認識技術では、入力音声の全体に対して、例えば「食事」や「旅行」などの大まかな種別を推定し、その種別に合わせた認識処理を行っていた。しかしこれは入力音声全体の認識精度を一律に高めるための技術であり、キーワード部分の精度を高めることは難しい場合があった。
NECは、1960年代より、中央研究所を中心に、音声認識に関する研究開発を続けている。その成果をベースに、これまで、耐騒音性に優れた「VoiceDo」をはじめ、電話音声応答システム「CSVIEW/VoiceOperator」、コンタクトセンター支援ソフト「CSVIEW/VisualVoice」、音声認識ミドルウェア「WebOTX Speech Recognition」、議事録作成支援ソフト「VoiceGraphy」など、多数の製品やソリューションを提供している。今回開発した音声認識技術は、これらのソリューションをはじめとして、営業管理システムやグループウェアなどにおけるモバイル端末からの音声入力といった、さまざまな場面への応用が期待できるという。


PAGE TOP