
2025年11月18日、Cloudflareのコアネットワークで大規模なHTTP 5xx障害が発生しました。原因は外部攻撃ではなく、11:05に行われたClickHouseのアクセス権変更により生成された不正な「フィーチャーファイル」の急増です。クラウド依存が進むDXでは、設定運用と権限管理の重大性が改めて浮き彫りになりました。
障害の経緯と主要な影響
11:20(UTC)に始まったこのインシデントでは、多数のエンドユーザーがCloudflare経由のサイトでHTTP 5xxエラーページを受取りました。初動では大規模なDDoSの可能性も検討されましたが、調査の結果、外部攻撃ではなく内部の設定変更がトリガーであることが判明しました。具体的には、11:05に展開されたClickHouseのアクセス制御の変更が、フィーチャーファイル生成クエリの振る舞いを変え、重複するエントリを多数含むファイルが生成され始めました。
生成されたフィーチャーファイルは数分ごとにネットワーク全体へ伝播され、ボット管理の機械学習モデルがそれを参照します。しかし、出力行数が急増し、プロキシ上のモジュールが想定していた機能数の事前割当上限(200)を超過したことで、FL2プロキシ上のRust実装がパニックを起こし、コアプロキシが連鎖的にHTTP 5xxを返す状況になりました。影響はコアCDNやセキュリティ機能に留まらず、Workers KV、Cloudflare Access、ダッシュボード、Turnstileなど広範囲に及びました。
プロキシのバージョン差も重要な要素でした。FL2を導入している顧客ではパニックに伴う5xxが観察された一方、旧プロキシ(FL)の顧客は5xxを受けない代わりにボットスコアが正しく計算されず全トラフィックのボットスコアが“0”になり、ボットブロックルールを運用しているサイトでは誤検知が発生しました。これにより影響の現れ方が顧客ごとに異なった点は留意が必要です。
対応は段階的に進められました。13:05頃、Workers KVとAccessへの依存を避けるバイパスや、コアプロキシの旧バージョンへのフォールバックが導入されて影響が軽減されました。14:24には悪いフィーチャーファイルの生成と伝播を停止し、既知の良好なファイルを配布キューに手動で挿入する作業が行われました。14:30には主要なトラフィックの流れが回復し始め、17:06には全てのシステムが通常稼働に戻ったと報告されています。
今回の教訓は明確です。分散データ基盤(本件ではClickHouse)のクエリ変更や権限ロールアウトは、生成物が下流の自動配布経路を通じて即時に広がる可能性があり、事前検証と出力検査(行数・重複チェックなど)を組み込む必要があります。また、プロキシやモジュールごとのフェイルモードの違いを理解し、グローバルキルスイッチや旧バージョンへの迅速ロールバック手順、生成ファイル取り込み時の堅牢化は必須です。Cloudflare自身も生成ファイル取り込みの堅牢化、機能のグローバルキルスイッチ追加、コアダンプ等がリソースを圧迫しない設計、各プロキシモジュールの故障モードレビューを実施すると表明しています。
詳しくは「Cloudflare」の公式ページまで。
