株式会社チューリングは、大容量の動画・画像データをAIに適した形式で高精度に保持しながら効率的に圧縮する技術(特許出願中)を開発しました。本技術は、重要な情報を局所的に集約する学習技術と、重要度に応じたデータ配置を組み合わせることで、自律走行AIやマルチモーダルAIなどでの高速・高精度なデータ活用を可能にします。
近年、画像やテキストなど複数のデータを同時に扱うマルチモーダル大規模言語モデル(MLLM)が注目されており、大量のデータを入力するための高度な開発ニーズが高まっています。しかし、従来の画像データ埋め込み技術では、AIに最適化された形で効率的に情報を伝達することが難しいという課題がありました。
技術の概要
チューリングが開発した技術で、膨大なデータを効率よく圧縮し、必要な情報を高い精度で保持する仕組み。テキストや画像など様々な情報をトークンという文字列(AI処理の最小単位)に変換し、必要に応じて増減させる仕組み(可変長圧縮)を導入。これにより、必要な画質や解析精度を維持したまま、データ量を大幅に削減することが可能になります。
このうち、学習段階でトークン文字列の末尾をランダムに削除し、その差分を比較してモデルを最適化する「テールトークンドロップ」という手法を導入することで、重要な情報がデータ文字列の先頭に集中するようにしました。これにより、圧縮率を上げても重要な部分が失われにくい設計を実現しました。
また、トークン列から画像を再構成できるため、JPEGやWebPといった従来の画像フォーマットよりも少ないバイト数で、視覚的に自然な画像を再構成することが可能です。将来的には、リアルタイム性や通信コストが特に重要視される自律走行やクラウド連携システムへの応用が期待されます。
ソース PRタイムズ