パナソニックR&Dカンパニー・オブ・アメリカ(PRDCA)とパナソニックホールディングス株式会社(Panasonic Holdings Co.(パナソニックHD)の研究者と共同で 北京大学, 復旦大学, カリフォルニア大学バークレー校そして 上海交通大学当社は、視覚情報(画像・映像情報)を言語で理解するAIモデルであるVLM(Vision-Language Model)を軽量化する技術「SparseVLM」を開発しました。
近年、視覚情報と文字情報を同時に処理し、視覚情報に関する質問に回答するAIモデル「VLM」の開発が盛んに行われています。しかし、特に高解像度の画像や長時間の動画では、AIモデルが扱う情報量が増大し、推論時間や計算量が増大するという問題があります。今回開発した「SparseVLM」は、入力されたプロンプトに関連する視覚情報のみを処理(スパース化)するという新たなアプローチをとることで、画像に関する質問に対する高い解答精度を維持しつつ、推論時間と計算量を大幅に削減することに成功しました。
本技術の先進性が国際的に認められ、AI・機械学習技術のトップ会議である第42回機械学習国際会議(ICML2025)での発表が決定しました。本技術は、2025年7月13日から7月19日までカナダのバンクーバーで開催される同会議で発表される予定です。
こちらもお読みください: チャットセンス、自治体向けRAGデモを開始
今回開発した「SparseVLM」は、従来のVLM軽量化手法では考慮されていなかった入力プロンプトを考慮することで、質問応答精度を維持したまま処理速度を約2倍に向上させる技術です。視覚情報から利用者の状態や周辺環境を素早く認識し、言語化することが求められる様々な分野での活用が期待されます。
パナソニックHD 当社は、今後もAIの社会実装を加速し、お客様の生活や職場の向上に貢献するAI技術の研究開発を推進してまいります。
ソース PRタイムズ