インサイトエッジ LLM(大規模言語モデル)を活用したPython文書解析ライブラリ「Exparso」をOSS(オープンソースソフトウェア)としてリリースしました。Exparsoは、PDFやOfficeファイル、画像などの非構造化データをマルチモーダルLLMで解析し、RAG(Retrieval Augmented Generation)の検索精度や回答品質を向上させます。
LLMによるテキストデータ解析が一般化する中、代表的な手法としてRAGが広く利用されています。しかし、図表やフローチャート、手書き文字などを含む文書から、高い精度で情報を抽出し、検索性を確保することは、RAGシステムの精度を左右する大きな課題でした。
こちらもお読みください: ケイデンス、NVIDIA AI搭載スーパーコンピュータ「M2000」を発表
住友商事グループをはじめ、さまざまな業種のDXプロジェクトの技術支援を通じて、現場の業務ドキュメントは多種多様であり、その前処理がプロジェクトの成果に直結することを実感してきました。しかし、ドキュメント処理は属人化しやすく、プロジェクトごとに品質や立ち上げスピードにばらつきが生じることも明らかになってきました。その結果、個人依存を解消しつつ、提供する業務の品質を標準化し、複数のプロジェクトに共通する価値を持続的に提供できるプラットフォーム技術の必要性から、「Exparso」を開発しました。
ソース PRタイムズ