〔2020/3/9〕アドバンスト・メディア、双方向型ディープラーニング「Bi-LSTM」で音声認識を25%向上
アドバンスト・メディアは、双方向型のディープラーニング技術「Bi-LSTM(Bidirectional Long Short-Term Memory)」を音声認識エンジン「AmiVoice」に実装したと発表した。これにより、エラー改善率が最大で25%(同社調べ)と、自然発話を中心とした認識率が向上した。
AmiVoiceは、音声認識エンジンである。コンタクトセンターにおいて顧客との会話内容をリアルタイムにテキスト化する用途や、音声ファイルから議事録となるテキストを生成する用途など、各種のアプリケーションに組み込んで利用できる。アドバンスト・メディアでは、音声認識エンジン(ライブラリやAPIサービス)に加えて、音声認識エンジンを組み込んだアプリケーションも提供している。
2018年10月には、音声認識の精度を高める仕組みとして、リカレントニューラルネットワーク(RNN)を拡張したLSTM(Long short-term memory)技術を搭載した。音声のような時系列データの処理に適しており、過去の情報を加味しながら処理を行える。これにより、話し言葉を中心とした自然発話の認識率が向上し、従来型の音声認識エンジンと比べてエラー改善率が最大20%向上した。
今回、音声認識の精度を高める仕組みとして、Bi-LSTMを搭載した。従来版が搭載していたLSTMは過去の情報を加味しながら処理を行うが、これに対してBi-LSTMは未来の情報を予測して加えることで、双方向の時間軸から処理を行う。これにより、LSTMを実装した音声認識エンジンと比較して、リアルタイム認識で最大20%、バッチ認識で最大25%のエラー改善率となり、認識率が向上した。
オンライン音声認識エンジンとオフラインの音声認識エンジンの両方に実装した。2020年4月から、音声認識APIの開発基盤「AmiVoice Cloud Platform」において、Bi-LSTMを実装した音声認識エンジンを提供する。今後は、文字起こしアプリケーションやコンタクトセンターアプリケーションなど各アプリケーションに順次実装する。
なお、一昔前は、音響特徴量のパターンを連続分布でモデル化する「混合ガウス分布(GMM)」技術を活用した音声認識エンジンが主流だった。2013年頃から徐々にディープラーニング(深層学習)技術の活用が広がり、この数年で認識率が飛躍的に向上している。