
オープンAIは170人超の精神医療専門家と協働し、ChatGPTの苦痛検知と対応を改良しました。モデル評価では、特定条件下で「望ましくない応答」が大幅に減少したと報告されています。改善の中身と評価の性質を整理します。
臨床連携で何を変えたか
オープンAIは精神病・躁病、自傷・自殺、AIへの感情的依存の三領域を優先し、170人以上の精神科医・心理学者らと協働して詳細な会話分類基準(タクソノミー)を作成しました。このタクソノミーは、苦痛の兆候を検出する基準や「望ましい応答」「望ましくない応答」を定義し、モデルに共感的な応答や現実世界の支援(ホットライン案内や再ルーティング)へ導く振る舞いを学習させる目的で用いられています。
改善作業は5段階のプロセスで進められました。問題定義、測定開始(本番データと構造化したオフライン評価の併用)、外部専門家による検証、モデルの事後トレーニングと製品介入によるリスク軽減、そして継続的な測定と反復です。特に低頻度だが高リスクな会話に対して敵対的に選んだ難易度の高いシナリオで評価を行い、長時間の対話でも95%超の信頼性を保つ改善が図られたと報告されています。
評価結果では、タクソノミーに基づく評価で「望ましくない応答」を返す頻度が領域別におおむね65〜80%減少したと推定されています。臨床家レビューではGPT-5系GPT-4o比で39〜52%の改善を示したとの報告があり、具体的な稀性の推計としては、ある週のアクティブユーザーの約0.07%、メッセージの0.01%が精神病・躁病関連の兆候を示す可能性がある等の数値も示されています。
臨床専門家と連携したタクソノミー整備と厳密な評価設計により、モデル応答の安全性が定量的に改善された点は重要です。今後も測定方法とタクソノミーの更新が続くことを期待します。
詳しくは「オープンAI」の公式ページまで。
レポート/DXマガジン編集部 權
