Đánh giá độ tin cậy của mô hình GPT: Nghiên cứu mới tiết lộ những rủi ro tiềm ẩn của mô hình ngôn ngữ AI

Đánh giá độ tin cậy của mô hình ngôn ngữ trí tuệ nhân tạo

Một nghiên cứu được thực hiện bởi Đại học Illinois tại Urbana-Champaign, Đại học Stanford, Đại học California, Berkeley, Trung tâm An ninh Trí tuệ Nhân tạo và các tổ chức khác đã tiến hành đánh giá toàn diện về độ tin cậy của các mô hình ngôn ngữ lớn (LLMs). Nhóm nghiên cứu đã phát triển một nền tảng đánh giá tổng hợp và đã trình bày chi tiết các phát hiện của họ trong bài báo gần đây có tiêu đề "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT".

Nghiên cứu đã phát hiện ra một số lỗ hổng liên quan đến độ tin cậy mà trước đây chưa được công khai. Ví dụ, mô hình GPT dễ bị dẫn dắt, tạo ra các đầu ra có hại và mang tính thiên kiến, và cũng có thể tiết lộ thông tin riêng tư trong dữ liệu huấn luyện và lịch sử đối thoại. Mặc dù trong các bài kiểm tra chuẩn, GPT-4 thường đáng tin cậy hơn so với GPT-3.5, nhưng khi phải đối mặt với các gợi ý ác ý nhằm vượt qua các biện pháp bảo mật, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ nghiêm ngặt các hướng dẫn gây hiểu lầm.

Nhóm nghiên cứu đã thực hiện đánh giá toàn diện về độ tin cậy của mô hình GPT từ tám góc độ khác nhau, bao gồm khả năng thích ứng trong môi trường đối kháng. Ví dụ, để đánh giá độ bền của GPT-3.5 và GPT-4 trước các cuộc tấn công đối kháng văn bản, họ đã thiết kế ba kịch bản đánh giá: bài kiểm tra chuẩn, bài kiểm tra dưới các hướng dẫn nhiệm vụ khác nhau, và bài kiểm tra sử dụng văn bản đối kháng thách thức hơn.

Nghiên cứu cũng đã phát hiện ra một số kết quả thú vị. Về mặt trình diễn đối kháng, mô hình GPT không bị nhầm lẫn bởi các ví dụ phản thực tế, nhưng có thể bị nhầm lẫn bởi các trình diễn phản gian lận. Về độ độc hại và định kiến, mô hình GPT có độ lệch không lớn đối với hầu hết các chủ đề định kiến trong môi trường tốt lành, nhưng có thể tạo ra nội dung có định kiến dưới các gợi ý gây hiểu lầm. GPT-4 dễ bị ảnh hưởng hơn bởi các gợi ý hệ thống gây hiểu lầm có mục tiêu so với GPT-3.5.

Về bảo vệ quyền riêng tư, nghiên cứu cho thấy mô hình GPT có thể rò rỉ thông tin nhạy cảm trong dữ liệu đào tạo, đặc biệt là khi cung cấp bối cảnh liên quan hoặc trình diễn mẫu ít. GPT-4 thể hiện tốt hơn GPT-3.5 trong việc bảo vệ thông tin nhận dạng cá nhân, nhưng cả hai mô hình đều thể hiện độ mạnh mẽ cao khi đối mặt với một số loại thông tin cá nhân. Tuy nhiên, khi có sự trình diễn rò rỉ quyền riêng tư trong quá trình học bối cảnh, cả hai mô hình đều có thể rò rỉ tất cả các loại thông tin cá nhân.

Nghiên cứu này cung cấp những hiểu biết quan trọng để đánh giá và cải thiện độ tin cậy của các mô hình ngôn ngữ lớn. Nhóm nghiên cứu hy vọng rằng công việc này sẽ khuyến khích nhiều nhà nghiên cứu tham gia, cùng nhau nỗ lực tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn. Để thúc đẩy hợp tác, họ đã mở mã chuẩn có khả năng mở rộng cao và dễ sử dụng, giúp việc thực hiện đánh giá toàn diện trên các mô hình mới trở nên đơn giản và hiệu quả.

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • 4
  • Chia sẻ
Bình luận
0/400
ProposalDetectivevip
· 4giờ trước
AI cũng không đáng tin lắm.
Xem bản gốcTrả lời0
PumpDetectorvip
· 07-11 20:29
đã nói điều này kể từ những ngày mt gox... đừng tin AI
Xem bản gốcTrả lời0
AlphaBrainvip
· 07-11 20:25
Ai đang sử dụng ai, tôi sẽ báo cáo trực tiếp.
Xem bản gốcTrả lời0
MEVHunterWangvip
· 07-11 20:08
Lại rò rỉ một lỗ hổng mới phải không?
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)