〔2025/3/10〕レトリバ、最高精度の日本語検索向けテキスト埋め込みモデル「AMBER」を公開

 レトリバ(本社:東京都豊島区、田口琢也社長)は、日本語検索向けのテキスト埋め込みモデル「RetrievaEmbedding – 01 AMBER (Adaptive Multitask Bilingual Embedding Representation)」を公開したことを発表した。
 本モデルは日本語検索用途に最適化されている。これにより、外部データベースの情報を検索して生成AIの出力に反映させる技術であるRAG(Retrieval-Augmented Generation)などにおいて、欲しい情報をより正確に、より速く見つけられるようになる。
 日本企業における生成AIの活用は、欧米と比べてまだ発展途上であり、デジタル赤字やIT分野での競争力低下が懸念されている。その中でも特に、情報の正確性や最新性を向上させるRAG(Retrieval-Augmented Generation)は、多くの企業で期待されているが、まだ十分に活用が進んでいない
 その要因の1つとして、RAGの重要な要素であるEmbedding技術に関して、日本語のモデルが英語に比べて十分に整備されておらず、多くの企業で検索精度が不十分なEmbeddingモデルを使用している点が挙げられる。その結果、生成される回答の精度が低いという課題が顕在化し、日本企業のAI活用を阻む大きなボトルネックとなっている。
 こうした課題を解決するため、レトリバは長年にわたり自然言語処理技術を研究・開発し、磨き上げてきたAI技術をもとに、このたび、最高精度の日本語Embeddingモデルの開発に至った。
 AMBERは日本企業における社内検索に適したEmbeddingモデル。以下のような特徴がある。
1. 最高精度の日本語検索
 AMBERは、実務に適したコンパクトなモデルサイズ(パラメータ500M以下)の中で、日本語検索において最高精度を誇るEmbeddingモデル。本モデルは日本語の検索精度を測るテストで、公開されているコンパクトな日本語埋め込みモデルや多言語埋め込みモデルに比べて最も高いスコアを記録した。
2. 英語を含むドキュメント検索性能
 多くの日本企業では、社内のドキュメントに日本語と英語が混在しており、情報検索の際に言語の壁が生じることが少なくない。AMBERは、日本語検索において高い精度を実現しつつ、英語の情報も適切に扱うことができるため、業務環境に適したEmbeddingモデルとなる。
 今後、日本企業のAI活用において「RAG」の重要性がますます高まる中、より優れたモデルの開発に努めていく。また、AMBERをファインチューニングすることで、業界や企業特有の用語に特化した検索モデルの構築が可能。これを企業とのコラボレーションを通じて実現していきたいと考えている。


PAGE TOP