〔2017/11/15〕アドバンスト・メディア、ディープラーニングの発展技術「LSTM」を実装し、音声認識エンジンAmiVoiceが更に精度向上
アドバンスト・メディアは、ディープラーニングの発展技術であるリカレントニューラルネットワークの「LSTM(Long Short-Term Memory)」を音声認識エンジンAmiVoiceに実装した。これにより、エラー改善率最大20%を記録(当社調べ)し、自然発話の認識率が大きく向上した。
LSTMは、リカレントニューラルネットワーク技術の1つで、これまで短期でしか利用できなかった情報を長期に渡って活用することができるという特徴を持っている。これを音声認識エンジンに実装することで認識率を向上させることが可能となった。
この度、音声認識エンジンAmiVoiceの音響モデル、発話区間検出にLSTM技術を実装した。過去の情報を加味しながら処理を行うことで、特に話し言葉を中心とした自然発話の認識率が大きく向上し、従来型のDNN技術と比較しエラー改善率最大20%を記録した。加えて、精度への影響を抑えつつフレームレート(認識処理の単位)を小さくする手法を導入することで、従来のLSTM技術で課題となっていた処理速度の問題を解決し、高い認識速度を保ちながら精度向上を実現した。発話区間検出にもLSTM技術を実装したため、発話の区間判断の精度と耐雑音性能が向上した。
まずは自然発話が中心となる、議事録やコールセンター分野から導入をスタートし、順次各サービスへの実装する予定。