リコーは、日本企業の図表付き文書を読み取るマルチモーダル大規模言語モデルを開発したと発表。これは、アリババクラウドのQwen2.5-VL-32B-Instructモデルをベースに構築されたもの。今回の開発は、経済産業省とNEDOが推進するGENIACプロジェクトの第2期の一環。リコーは先に700億パラメータの基本モデルを無償公開しています。.
リコーはこのモデルからのフィードバックをもとに、よりコンパクトで高性能なモデルを開発しました。実際のアプリケーションに導入しやすく、使いやすいように設計されています。また、より軽量なセットアップのための4ビット量子化バージョンも提供しています。.
こちらもお読みください: LLM開発時代のコード監査AIエージェント「pyscn-bot」を発表
モデルのトレーニング, リコー は、文字、円グラフ、棒グラフ、フローチャートなど、ビジネス文書に含まれる約60万点の画像を使用しました。このモデルは、テキストと視覚情報の両方を使用する日本語の質問応答データセットJDocQAのようなベンチマークでテストされ、他のモデルを上回りました。.
また、リコージャパンが提供する「RICOHオンプレミスLLMスターターキット」にも含まれます。.

