〔2008/10/06〕日立製作所、2000時間の録音の中から3秒でキーワードを含む音声を検索可能な高精度・高速な大規模音声検索技術を開発
日立製作所は、大規模な録音データの中から、任意のキーワードを含む音声を高い精度で高速に検索する技術を開発した。同技術は、録音データを、音素(音声の基本単位)記号処理を用いて高速に検索した上で、音声特徴量を用いたより精緻な再検索を行い、段階的に精度を高めながら音声を検索する技術。これにより、2000時間の録音の中から3秒でキーワードを含む音声を検索することが可能になる。同技術は、今後、音声付き映像コンテンツの検索をはじめ、コールセンターにおいて顧客の生の声を迅速に検索し、商品やサービスの向上に役立てるなど、幅広い応用が期待される。
従来の音声検索技術には、録音データを音素の記号列に変換しておき、高速にキーワードの照合を行う方式と、録音データの音声特徴量を解析し、高い精度で照合を行う方式があったが、前者には検索の精度に、後者には、照合処理に膨大な時間がかかるという問題があった。
このような背景から、同社では、音素の記号列と音声特徴量による検索方式を組み合わせ、任意のキーワードに対して段階的に照合を行うことによって、2000時間という大規模な音声データに対しても、高い精度を保ったまま、3秒という高速で検索する音声検索技術を開発した。
今回開発した技術は、2008年10月8日から10月10日まで、オーストラリアのケアンズで開催される国際学会「IEEE Signal Processing Society 2008 International Workshop on Multimedia Signal Processing」で発表する。