GPT模型可信度評估：新研究揭示AI語言模型潛在風險

2025-07-11 20:07:43

人工智能語言模型的可信度評估

一項由伊利諾伊大學香檳分校、斯坦福大學、加州大學伯克利分校、人工智能安全中心等機構共同開展的研究，對大型語言模型(LLMs)的可信度進行了全面評估。研究團隊開發了一個綜合評估平台，並在最近發表的論文《DecodingTrust：全面評估GPT模型的可信度》中詳細介紹了他們的發現。

研究發現了一些以前未公開的與可信度相關的漏洞。例如，GPT模型容易被誤導，產生有害和帶有偏見的輸出，還可能泄露訓練數據和對話歷史中的隱私信息。雖然在標準基準測試中GPT-4通常比GPT-3.5更可靠，但在面對旨在繞過安全措施的惡意提示時，GPT-4反而更容易受到攻擊。這可能是因爲GPT-4更嚴格地遵循了具有誤導性的指令。

研究團隊從八個不同角度對GPT模型進行了全面的可信度評估，包括對抗性環境下的適應性。例如，爲評估GPT-3.5和GPT-4對文本對抗攻擊的魯棒性，他們設計了三種評估場景：標準基準測試、不同指導性任務說明下的測試，以及使用更具挑戰性的對抗性文本進行的測試。

研究還發現了一些有趣的結果。在對抗性演示方面，GPT模型不會被反事實示例誤導，但可能會被反欺詐演示誤導。在有毒性和偏見方面，GPT模型在良性環境下對大多數刻板印象主題的偏差不大，但在誤導性提示下可能會產生有偏見的內容。GPT-4比GPT-3.5更容易受到有針對性的誤導性系統提示的影響。

在隱私保護方面，研究發現GPT模型可能會泄露訓練數據中的敏感信息，特別是在提供相關上下文或少樣本演示的情況下。GPT-4在保護個人身分信息方面比GPT-3.5表現更好，但兩種模型在面對某些類型的個人信息時都表現出較強的魯棒性。然而，當在上下文學習過程中出現隱私泄露演示時，兩種模型都可能泄露所有類型的個人信息。

這項研究爲評估和改進大型語言模型的可信度提供了重要見解。研究團隊希望這項工作能夠鼓勵更多研究者參與，共同努力創造更強大、更可信的模型。爲促進合作，他們開放了具有高度可擴展性和易用性的基準代碼，使得在新模型上運行完整評估變得簡單高效。

GPT-2.11%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

8人點讚了這條動態

讚賞
8
4
分享

留言

0/400

提案投票侦探

· 4小時前

AI也不咋靠谱啊

回復0

PumpDetector

· 07-11 20:29

自Mt Gox时代以来一直在说这个... 不要信任任何AI

查看原文回復0

AlphaBrain

· 07-11 20:25

谁在用ai 我直接举报

回復0

MEV猎人老王

· 07-11 20:08

又甩出新漏洞是吧

回復0

話題
Launchpad首髮Pump.Fun
4082 熱度
BTC再創新高
94052 熱度
我的Gate時刻
15057 熱度
4ETH突破3000
41752 熱度
5VIP專屬空投嘉年華
11851 熱度
6美聯儲6月會議紀要
4617 熱度
7美加徵關稅
15615 熱度
8Gate xStocks 交易體驗
22125 熱度
9香港穩定幣條例
13044 熱度
10TruthSocial加密藍籌ETF
2444 熱度