GPTモデルの信頼性評価：新しい研究がAI言語モデルの潜在的リスクを明らかにする

2025-07-11 20:07:43

AI言語モデルの信頼性評価

イリノイ大学シャンペーン校、スタンフォード大学、カリフォルニア大学バークレー校、人工知能安全センターなどの機関が共同で行った研究は、大型言語モデル(LLMs)の信頼性を包括的に評価しました。研究チームは包括的な評価プラットフォームを開発し、最近発表された論文「DecodingTrust：GPTモデルの信頼性を包括的に評価する」において、彼らの発見を詳しく紹介しています。

研究では、信頼性に関連するいくつかの以前には公開されていなかった脆弱性が発見されました。例えば、GPTモデルは誤解を招きやすく、有害で偏見のある出力を生成する可能性があり、トレーニングデータや会話履歴のプライバシー情報を漏らすこともあります。標準ベンチマークテストでは、GPT-4は通常GPT-3.5よりも信頼性が高いですが、セキュリティ対策を回避することを目的とした悪意のあるプロンプトに直面すると、GPT-4は逆に攻撃を受けやすくなります。これは、GPT-4が誤解を招く指示により厳格に従っているためかもしれません。

研究チームは、GPTモデルの信頼性を8つの異なる観点から包括的に評価しました。これには、対抗環境における適応性が含まれています。例えば、GPT-3.5とGPT-4がテキストに対する対抗攻撃にどれだけ頑健であるかを評価するために、彼らは3つの評価シナリオを設計しました：標準ベンチマークテスト、異なる指示タスクの下でのテスト、そしてより挑戦的な対抗テキストを使用したテストです。

研究はまた、いくつかの興味深い結果を発見しました。対抗的なデモに関しては、GPTモデルは反事実の例に惑わされないが、反詐欺デモには惑わされる可能性があります。有毒性と偏見の面では、GPTモデルは良性の環境下でほとんどのステレオタイプのテーマに対する偏見が少ないですが、誤解を招くプロンプトの下では偏見のあるコンテンツを生成する可能性があります。GPT-4はGPT-3.5よりも、ターゲットを絞った誤解を招くシステムプロンプトの影響を受けやすいです。

プライバシー保護に関して、研究によるとGPTモデルは、特に関連するコンテキストや少数のサンプルデモを提供した場合、トレーニングデータ内のセンシティブな情報を漏洩する可能性があります。GPT-4は個人識別情報の保護に関してGPT-3.5よりも優れたパフォーマンスを示していますが、両方のモデルは特定の種類の個人情報に対して強いロバスト性を示しています。ただし、コンテキスト学習プロセスでプライバシー漏洩デモが発生した場合、両方のモデルはすべての種類の個人情報を漏洩する可能性があります。

この研究は、大規模言語モデルの信頼性を評価し、改善するための重要な洞察を提供します。研究チームは、この作業がより多くの研究者を参加させ、より強力で信頼性の高いモデルを共同で作成することを奨励することを望んでいます。協力を促進するために、彼らは高いスケーラビリティと使いやすさを備えたベンチマークコードを公開し、新しいモデルで完全な評価を実行することを簡単かつ効率的にしました。

GPT9.66%

原文表示

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

8 いいね