〔2010/6/10〕日本IBM、外国語のテキストデータを1つの言語で分析できる言語横断テキストマイニング技術を開発

 日本TBMは、海外でビジネスを行う企業が、外国語で記述された文書データを1つの言語で分析することを可能にする言語横断テキストマイニング技術を開発したと発表した。この成果は、2010年度人工知能学会全国大会(第24回)で発表される。
近年のグローバル化に伴い、海外でビジネスを行う企業は、「お客様の声」、「社内文書」、「特許文書」などさまざまな文書データを、日本語だけではなくビジネスを行う各国の言語で記述された形で蓄積する機会が増えている。今後企業がより効果的な意思決定を行って行く上で、外国語で記述された膨大な文書データから経営に役に立つ情報を検出する需要は高まっている。膨大な文書データを活用する技術には「検索」、「分類・整理」、「知識発見」、という異なるレベルの技術が存在し、その目的も言語処理の内容も異なってくる。IBMのテキストマイニング技術では、「知識発見」を目的としている。今回、日本IBM 東京基礎研究所が開発した言語横断テキストマイニング技術は、IBMのソフトウェア製品であるIBM Content Analyticsにも採用されている同研究所が開発したテキストマイニング技術、TAKMIに、やはり同研究所が開発した言語や分野に依存しない訳語対抽出手法を組み合わせている。
IBMの研究員が開発した訳語対抽出手法では、解析したい概念が母語のデータにおいて出現する文脈を解析し、一般的に使用されている辞書を活用して出現文脈を母語から他言語に変換した上で、他言語中の似たような文脈で出現する表現を訳語の候補として抽出する。データをすべて翻訳するのではなく、解析したい概念の訳語のみをデータ中の文脈に基づいて抽出するため、一般的な辞書には掲載されていない特殊な表現や分野特有の表現であっても、母語と他言語の対応を推定することができ、分布の変化や偏りを捉える上で有益であることが実験結果からも実証されている。解析担当者は専門分野に関する知識を持っていれば、他言語の知識がなくても未知の言語の文書データを分析することができる。
例えば、世界中に設置されたコールセンターへ日々入ってくる顧客の声は、多くの場合、各オペレーターはさまざまな文体で顧客の声を顧客が話される言語でデータベースにインプットする。基本的に同様の製品を各国で販売している場合、その製品について分析を行う担当者の母語以外の言語で蓄積されているデータを母語に翻訳することなく分析し、新たな知見を得ることが理想的だ。IBMの言語横断テキストマイニング技術は、例えば日本語といった1つの言語で定義された分析対象表現に対応する可能性の高い表現を、IBMが開発した訳語対抽出手法を使って他言語のデータから自動的に探し出し、日本語で分析する。企業はその結果をもとに、分析対象表現の出現傾向を把握し、特定の製品への偏りや急増傾向を捉えることで、まだ把握していない事実や問題点を早期に発掘し、調査のきっかけをつかんだり、適切なアクションにつなげることが可能となる。


PAGE TOP