GPT模型可信度评估：新研究揭示AI语言模型潜在风险

2025-07-11 20:07:43

人工智能语言模型的可信度评估

一项由伊利诺伊大学香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心等机构共同开展的研究，对大型语言模型(LLMs)的可信度进行了全面评估。研究团队开发了一个综合评估平台，并在最近发表的论文《DecodingTrust：全面评估GPT模型的可信度》中详细介绍了他们的发现。

研究发现了一些以前未公开的与可信度相关的漏洞。例如，GPT模型容易被误导，产生有害和带有偏见的输出，还可能泄露训练数据和对话历史中的隐私信息。虽然在标准基准测试中GPT-4通常比GPT-3.5更可靠，但在面对旨在绕过安全措施的恶意提示时，GPT-4反而更容易受到攻击。这可能是因为GPT-4更严格地遵循了具有误导性的指令。

研究团队从八个不同角度对GPT模型进行了全面的可信度评估，包括对抗性环境下的适应性。例如，为评估GPT-3.5和GPT-4对文本对抗攻击的鲁棒性，他们设计了三种评估场景：标准基准测试、不同指导性任务说明下的测试，以及使用更具挑战性的对抗性文本进行的测试。

研究还发现了一些有趣的结果。在对抗性演示方面，GPT模型不会被反事实示例误导，但可能会被反欺诈演示误导。在有毒性和偏见方面，GPT模型在良性环境下对大多数刻板印象主题的偏差不大，但在误导性提示下可能会产生有偏见的内容。GPT-4比GPT-3.5更容易受到有针对性的误导性系统提示的影响。

在隐私保护方面，研究发现GPT模型可能会泄露训练数据中的敏感信息，特别是在提供相关上下文或少样本演示的情况下。GPT-4在保护个人身份信息方面比GPT-3.5表现更好，但两种模型在面对某些类型的个人信息时都表现出较强的鲁棒性。然而，当在上下文学习过程中出现隐私泄露演示时，两种模型都可能泄露所有类型的个人信息。

这项研究为评估和改进大型语言模型的可信度提供了重要见解。研究团队希望这项工作能够鼓励更多研究者参与，共同努力创造更强大、更可信的模型。为促进合作，他们开放了具有高度可扩展性和易用性的基准代码，使得在新模型上运行完整评估变得简单高效。

GPT-0.04%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

8人点赞了这条动态

赞赏
8
4
分享

0/400

提案投票侦探

· 10小时前

AI也不咋靠谱啊

PumpDetector

· 07-11 20:29

自Mt Gox时代以来一直在说这个... 不要信任任何AI

查看原文回复0

AlphaBrain

· 07-11 20:25

谁在用ai 我直接举报

MEV猎人老王

· 07-11 20:08

又甩出新漏洞是吧

话题
Launchpad首发Pump.Fun
7460 热度
BTC再创新高
103362 热度
我的Gate时刻
18909 热度
4ETH突破3000
43201 热度
5VIP 专属空投嘉年华
12543 热度
6美联储6月会议纪要
4659 热度
7美加征关税
15700 热度
8Gate xStocks 交易体验
22257 热度
9香港稳定币条例
13099 热度
10TruthSocial加密蓝筹ETF
2552 热度