
Windowsの公式ブログは、オンデバイス実行に最適化した小規模言語モデル「Mu」を発表しました。Muは自然言語の指示をWindowsの設定操作へ正確にマッピングする用途に特化し、Windowsの設定エージェントを支える中核技術として紹介されています。Copilot+ PCのDevチャネルに参加するWindows Insider向けに提供され、NPU上で毎秒100トークン超の応答速度を達成します。記事は、モデル設計や量子化、設定エージェントへの組み込み手法まで具体的に解説しています。オンデバイスAIの実装を検討する企業にとって、低レイテンシと省電力を両立する設計の要点を把握できる内容です。
Muの特徴とNPU最適化の要点
Muは約3億3千万パラメーターのエンコーダー・デコーダー型モデルで、入力を一度だけ潜在表現に変換して再利用する設計により計算とメモリを大幅に削減します。Qualcomm Hexagon NPUでは、同規模のデコーダーのみ構成に比べ、初回応答のレイテンシを約47%短縮し、デコード速度を4.7倍に向上させたと説明されています。NPUの並列性とメモリ制約に合わせ、層の次元やエンコーダーとデコーダーの配分を最適化し、およそ2対1の比率が有効と検証しています。重み共有により語彙の一貫性とメモリ節約を同時に実現し、NPUで最適な演算子のみを用いることで、オンデバイス推論の高速化を図っています。企業の端末活用では、モデル設計段階からターゲットNPUの演算子サポートとテンソル形状に合致させる方針が有効だと示唆されます。
小型でも精度を引き出すトレーニングと量子化
MuはDual LayerNorm、RoPE、GQAといった改良を取り入れ、トレーニングではウォームアップから減衰までのスケジュールやMuon Optimizerを採用しています。学習は教育的価値の高い大量トークンでの事前学習に続き、MicrosoftのPhiモデルからの蒸留でパラメーター効率を高めています。さらにLoRAによるタスク特化の微調整で性能を引き上げ、SQuADやCodeXGlue、設定エージェントの評価で小規模ながら高い結果を示しました。展開段階ではPTQによる8ビットや16ビット量子化を適用し、AMD、Intel、Qualcommと連携してNPUごとの演算最適化を進めています。Surface Laptop第7世代では毎秒200トークン超の生成が確認され、ユーザー体験を損なわずにメモリと計算コストを抑えています。導入を検討する組織は、蒸留とLoRAを組み合わせた段階的チューニングと、PTQを核にしたハードウェア協調最適化をセットで設計に織り込むとよいでしょう。
Windows設定エージェントへの実装と実務示唆
Microsoftは数百に及ぶ設定項目を対象に、自然言語から取り消し可能な設定変更へとつなぐエージェントを構築しました。ベースのMuは小型で高速でしたが、精度確保のため学習スケールを360万サンプルへ拡大し、対象設定も50から数百へ増強しています。自動ラベリングやメタデータによるプロンプト調整、言い回しの多様化、ノイズ挿入、スマートサンプリングを組み合わせ、応答時間を500ミリ秒未満に収めたと説明されています。短く曖昧なクエリには検索ボックスと連携して閾値制御を行い、複数語ではアクションを返し、閾値未満では検索結果を提示する設計で安定性を担保しました。重複しやすい設定表現への対処として、データ整備で利用頻度の高い設定を優先し、複雑タスクの体験改善も継続しています。自社プロダクトに応用する際は、曖昧入力のフォールバック経路や、設定ドメインの頻度ベース優先度を学習データに反映し、応答の可観測性と取り消し可能な操作設計を組み合わせることが重要です。
