Оцінка достовірності моделі GPT: нове дослідження виявляє потенційні ризики мовних моделей ШІ

Оцінка достовірності мовної моделі штучного інтелекту

Дослідження, проведене спільно Університетом Іллінойс у Шампейн, Стенфордським університетом, Університетом Каліфорнії в Берклі та Центром безпеки штучного інтелекту, всебічно оцінило довіру до великих мовних моделей (LLMs). Дослідницька команда розробила інтегровану платформу для оцінки та детально виклала свої знахідки в нещодавно опублікованій статті "DecodingTrust: всебічна оцінка довіри до моделей GPT".

Дослідження виявило кілька раніше непублічних вразливостей, пов'язаних із надійністю. Наприклад, моделі GPT легко вводити в оману, що призводить до шкідливого та упередженого виходу, а також можуть витікати конфіденційні дані з навчальних даних та історії діалогів. Хоча у стандартних бенчмарках GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у випадках, коли використовуються злісні підказки, спрямовані на обходження заходів безпеки, GPT-4 виявляється більш вразливим до атак. Це може бути пов'язано з тим, що GPT-4 більш строго дотримується оманливих інструкцій.

Дослідна команда провела всебічну оцінку надійності моделі GPT з восьми різних аспектів, включаючи адаптивність у ворожому середовищі. Наприклад, для оцінки стійкості GPT-3.5 та GPT-4 до текстових атак на основі протидії вони розробили три оцінювальні сценарії: стандартні бенчмарки, тести під різними інструкціями, а також тести з використанням більш складних ворожих текстів.

Дослідження також виявило кілька цікавих результатів. Що стосується демонстрацій протистояння, модель GPT не буде введена в оману контрфактичними прикладами, але може бути введена в оману демонстраціями, пов'язаними з шахрайством. Щодо токсичності та упередженості, модель GPT має незначні відхилення за більшістю тем стереотипів у доброчинному середовищі, але під misleading prompts може генерувати упереджений контент. GPT-4 легше піддається впливу цілеспрямованих misleading system prompts, ніж GPT-3.5.

У сфері захисту конфіденційності дослідження показали, що моделі GPT можуть витікати чутливу інформацію з навчальних даних, особливо у випадках надання відповідного контексту або демонстрації з невеликою кількістю зразків. GPT-4 демонструє кращі результати в захисті особистої ідентифікаційної інформації в порівнянні з GPT-3.5, але обидві моделі проявляють сильну стійкість до деяких типів особистої інформації. Однак, коли під час навчання в контексті виникають демонстрації витоку конфіденційності, обидві моделі можуть витікати всі типи особистої інформації.

Це дослідження забезпечило важливі погляди для оцінки та покращення надійності великих мовних моделей. Дослідницька команда сподівається, що ця робота зможе заохотити більше дослідників до участі, щоб спільно працювати над створенням більш потужних та надійних моделей. Для сприяння співпраці вони відкрили високостабільний та зручний для використання базовий код, що робить запуск повної оцінки на нових моделях простим та ефективним.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • 4
  • Поділіться
Прокоментувати
0/400
ProposalDetectivevip
· 1год тому
ШІ також не дуже надійний.
Переглянути оригіналвідповісти на0
PumpDetectorvip
· 07-11 20:29
казав це з часів mt gox... не довіряйте жодному ШІ
Переглянути оригіналвідповісти на0
AlphaBrainvip
· 07-11 20:25
Хто користується AI, я відразу ж повідомлю.
Переглянути оригіналвідповісти на0
MEVHunterWangvip
· 07-11 20:08
Знову викинули нову уразливість, так?
Переглянути оригіналвідповісти на0
  • Закріпити