富士通が開発した「生成AI再構成技術」は、1ビット量子化と特化型蒸留を組み合わせ、LLMのメモリを最大94%削減しつつ精度維持率89%、推論を3倍高速化。エッジデバイスで動く高精度AIの実現を現実にします。

量子化と蒸留の役割でLLMを「再構成」する

富士通は、巨大モデルの汎用知識から業務に必要な部分だけを抽出する発想で「生成AI再構成技術」を開発しました。本技術は、重みを極限まで圧縮する量子化技術と、用途に特化して教師モデルを超える精度を狙う特化型蒸留の2本柱で構成されます。人間の脳がスキルに応じて神経回路を組み替えるように、必要な知識を効率的に残す点が特徴です。

量子化では、新たな誤差伝播制御アルゴリズム(QEP)と最適化アルゴリズム(QQA)を組み合わせ、1ビット量子化を達成しました。これによりメモリ消費は最大94%削減され、量子化前比で精度維持率89%、推論速度は約3倍になりました。従来主流の後処理量子化(GPTQ)が精度維持率20%以下であるのに対し、大きく上回る結果です。結果として、GPU4枚が必要だった大型モデルをローエンドGPU1枚で高速実行でき、スマートフォンや工場機器などエッジでの利用が現実的になります。

蒸留側では、Pruningや追加のTransformerブロックで多様な候補構造を生成し、Proxy評価を用いたNASで要件に合う最適設計を自動選定します。選定後に「Takane」など教師モデルから知識を蒸留することで、特化タスクでは基盤モデルを上回る精度を達成します。富士通のCRMデータでの検証では、推論速度11倍・精度43%改善を確認し、パラメータ数は100分の1程度の生徒モデルで同等以上の結果を示しました。画像認識でも既存蒸留技術比で検出精度が10%向上しています。

今後、富士通は量子化済み「Takane」のトライアル環境を2025年度下期から順提供予定で、Cohereの研究用オープンウェイト「Command A」を量子化してHugging Face経由で公開します。目標はモデルのメモリ消費を最大1,000分の1へとさらに削減し、あらゆる場所で高精度・高速な生成AIを実行できる世界の構築です。

詳しくは「富士通の公式ページ」まで。
レポート/DXマガジン編集部 權

情報提供元: DXマガジン_テクノロジー
記事名:「 【解説】生成AI再構成技術とは?1ビット量子化×蒸留で精度維持89%へ