〔2011/3/8〕富士通研究所、重複した顧客データを高速に1つに統合する名寄せ技術を開発

 富士通研究所は、顧客データベースの中から同一の顧客を示すデータを高速に検出する技術を開発した。顧客データの名寄せに特化した類似検索手法を用いることにより、従来と同等の精度を保ったまま、処理速度を従来の約10倍に高速化した。
今回、従来の手法と精度を同等に保ちつつ、約10倍高速に顧客データベースの名寄せを行うことができる技術を開発した。開発した技術の特徴は以下の通り。
1.名寄せの見落としを防止
顧客データベース中のデータを、従来のように郵便番号といった1つの項目だけを対象に分割するのではなく、すべての項目内容を対象に他の顧客データの中から類似するデータを検索し、各項目の検索結果を総合評価することで、名寄せの見落としを少なくした。
2.顧客データの名寄せに特化した類似文字列検索
顧客データの表記の違いについて、すべてのケースを網羅して検索すると処理に時間がかかる。今回は、データどうしに共通部分があり、文字の先頭や末尾、あるいは中間部分の一箇所のみが違う程度のものであれば類似であると限定したうえで、データを高速に検索できる手法を用い、名寄せ精度を保ちつつ処理速度を向上させた。
富士通研究所では、2011年度中に今回開発した技術を用いた顧客名名寄せの実用化を目指す。また、顧客データ以外のテキストや画像・動画のタグなどに対象範囲を広げてデータを統合する研究開発を進め、さまざまな情報を連携させたサービスの提供につなげていく。


PAGE TOP