パナソニックR&Dカンパニー・オブ・アメリカ(PRDCA)とパナソニックホールディングス株式会社(Panasonic Holdings Co.(パナソニックHD)は、北京大学、復旦大学、カリフォルニア大学バークレー校、上海交通大学の研究者と共同で、視覚情報(画像・映像情報)を言語で理解するAIモデルVLM(Vision-Language Model)を軽量化する技術「SparseVLM」を開発しました。近年、視覚情報と文字情報を同時に処理し、視覚情報に関する質問に答えるAIモデル「VLM」の開発が盛んに行われています。しかし、特に高解像度の画像や長時間の動画では、AIモデルが扱う情報量が増加し、推論時間や計算量が増大するという問題があります。今回開発された「SparseVLM」は、AIモデルが処理する視覚情報のうち、質問に関連する情報のみを(スパースに)処理するという新たなアプローチ...
アカウントにサインインする