富士通は、AIサービス「FUJITSU KOZUCHI」の中核技術として、大規模言語モデル(LLM)の重み付けと消費電力を削減する新たな生成AI再構成技術を開発しました。本技術により、LLM "Takane "の機能強化に成功しました。本技術は、AIの思考基盤であるニューロン間の結合に割り当てる重みを最小化する世界最高精度の量子化技術と、軽量化と元のAIモデルを超える精度を両立させる世界初のAI専用蒸留技術の2つのコア技術で構成されています。この量子化技術を「貴音」に適用することで、1ビット量子化(メモリ消費量を最大94%削減)で量子化前と比較して世界最高の精度保持率89%を達成し、量子化前の3倍の速度を実現しました。これは、従来主流の量子化方式(GPTQ)の精度保持率20%以下を大きく上回るものです。この技術により、従来はハイエンドGPUが4台必要であった大規模なジェネレーティブAIモデルを、ローエンドGPU1台で高速に実行することが可能になります。
本技術による大幅な軽量化により、スマートフォンや工場機械などのエッジデバイス上でAIエージェントを動作させることが可能になります。これにより、リアルタイム応答性の向上、データセキュリティの強化、AI稼働時の消費電力の大幅な削減を実現し、持続可能なAI社会の実現に貢献します。富士通は、量子化技術を応用した「Takane」のトライアル環境を2025年度下期より順次提供開始します。さらに
本日より、本技術を用いて量子化したコヒアの研究用オープンウェイト「コマンドA」のモデルを、ハギングフェイスを通じて順次公開します。富士通は、今後も生成AIの能力を飛躍的に向上させるとともに、その信頼性を確保するための研究開発を推進することで、お客様や社会が抱えるより困難な課題の解決に貢献し、生成AIの新たな可能性を開拓してまいります。
近年、生成AIは自律的にタスクを実行するAIエージェントへと進化し、その産業実装は急速に進んでいます。しかし、その基盤となるLLMは大規模化し、高性能なGPUを大量に必要とするため、開発・運用コストの上昇や、消費電力の多さによる環境負荷など、大きな課題となっています。また、企業がジェネレーティブAIを業務に十分に活用するためには、単に汎用的なモデルを利用するのではなく、特定の業務に合わせたモデルの精度向上や、工場や店舗のエッジデバイスで利用できる軽量化が不可欠です。
こちらもお読みください: NTT-AT、RPA「WinActor」にAI機能を搭載
生成的AI再構成技術を構成する2つのコア技術
AIエージェントが実行するタスクの多くは、LLMの汎用能力のごく一部しか必要としません。LLMの設計において、ここで開発された生成的AI再構成技術は、学習、経験、環境の変化に応じて神経回路を再構成し、特定のスキルに特化する人間の脳の能力にヒントを得ています。一般的な知識を持つ巨大なモデルから、特定のタスクに必要な知識だけを効率的に抽出し、専門家の脳に近い、軽量で高効率、かつ信頼性の高いAIモデルを作り出します。これを可能にするのが、本技術の2つのコア技術です。
AIの思考を効率化し、消費電力を削減する量子化技術
この技術は、生成AIの思考の基礎となる膨大な量のパラメータ情報を圧縮し、生成AIモデルの重量、消費電力、速度を大幅に削減します。従来の手法では、量子化誤差が指数関数的に蓄積されるため、LLMのような多階層のニューラルネットワークでは課題がありました。富士通研究所では、理論的な知見に基づき、量子化誤差を層を超えて伝播させることで、量子化誤差の増大を防ぐ新しい量子化アルゴリズム(QEP:Quantization Error Propagation)を開発しました。さらに、富士通研究所が開発した大規模問題に対する世界最高精度の最適化アルゴリズムであるQQAを活用することで、量子化誤差を大幅に低減することが可能となりました。 富士通 研究所では、LLMの1ビット量子化を達成しました。
専門知識を凝縮し、精度を高めるAI専門蒸留技術
脳が必要な知識を補強し、不要な記憶を整理するように、AIモデルの構造を最適化する技術です。まず、ベースとなるAIモデルを刈り込んで不要な知識を削除し、Transformerブロックを追加して新たな機能を付与することで、多様なモデル候補を生成します。次に、独自のプロキシ評価技術であるNAS(Neural Architecture Search)を用いて、これらの候補モデルの中から、顧客要件(GPUリソース、速度)と精度のバランスが取れた最適なモデルを自動的に選択します。最後に、「Takane」のようなトレーニングモデルから知識を抽出し、選択されたモデルに組み込みます。このような独自のアプローチにより、単純な圧縮にとどまらず、専門的なタスクに対してベースとなる生成AIモデルを上回る精度を実現しています。
当社が保有するCRM(顧客関係管理)データを用いたテキストQAタスクで、各営業案件の結果を予測するデモでは、過去データに基づくタスク固有の知識のみを抽出したモデルを用いることで、推論速度を11倍に向上させ、精度を43%向上させるなど、大幅な精度向上を確認しました。また、高精度化とモデル圧縮を同時に実現することで、パラメータサイズが1/100の軽量な生徒モデルでも教師モデルを上回る精度を達成できることを確認し、必要なGPUメモリと運用コストを70%削減するとともに、より信頼性の高い取引結果の予測を可能にしました。さらに、画像認識タスクでは、未学習のオブジェクトの検出精度を、既存の蒸留技術と比較して10%向上させることに成功しました。これは画期的な成果であり、この分野における過去2年間の精度向上の3倍以上です。
ソース 富士通

