Penilaian Keandalan Model Bahasa Kecerdasan Buatan
Sebuah penelitian yang dilakukan bersama oleh University of Illinois Urbana-Champaign, Stanford University, University of California Berkeley, dan Artificial Intelligence Safety Center telah melakukan evaluasi menyeluruh terhadap keandalan model bahasa besar (LLMs). Tim peneliti mengembangkan sebuah platform evaluasi komprehensif dan merinci temuan mereka dalam makalah yang baru saja diterbitkan berjudul "DecodingTrust: Evaluasi Komprehensif Keandalan Model GPT".
Penelitian telah menemukan beberapa kerentanan yang berkaitan dengan kredibilitas yang sebelumnya belum dipublikasikan. Misalnya, model GPT rentan terhadap disinformasi, menghasilkan output yang berbahaya dan bias, serta dapat membocorkan data pelatihan dan informasi pribadi dari riwayat percakapan. Meskipun dalam pengujian dasar standar GPT-4 umumnya lebih dapat diandalkan dibandingkan GPT-3.5, saat menghadapi prompt jahat yang bertujuan untuk melewati langkah-langkah keamanan, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian melakukan penilaian menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk adaptasi dalam lingkungan yang bersifat antagonis. Misalnya, untuk mengevaluasi ketahanan GPT-3.5 dan GPT-4 terhadap serangan teks yang bersifat antagonis, mereka merancang tiga skenario evaluasi: pengujian standar, pengujian di bawah instruksi tugas yang berbeda, serta pengujian yang menggunakan teks antagonis yang lebih menantang.
Penelitian juga menemukan beberapa hasil yang menarik. Dalam hal demonstrasi yang bersifat adversarial, model GPT tidak akan tersesat oleh contoh kontra-faktual, tetapi mungkin akan tersesat oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model GPT menunjukkan sedikit bias terhadap sebagian besar tema stereotip di lingkungan yang baik, tetapi mungkin menghasilkan konten yang bias di bawah petunjuk yang menyesatkan. GPT-4 lebih mudah dipengaruhi oleh petunjuk sistem menyesatkan yang ditargetkan dibandingkan dengan GPT-3.5.
Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin dapat mengungkapkan informasi sensitif dari data pelatihan, terutama dalam situasi di mana konteks relevan atau demonstrasi contoh sedikit disediakan. GPT-4 menunjukkan kinerja yang lebih baik dibandingkan GPT-3.5 dalam melindungi informasi identitas pribadi, tetapi kedua model menunjukkan ketahanan yang kuat ketika menghadapi beberapa jenis informasi pribadi. Namun, ketika demonstrasi kebocoran privasi muncul dalam proses pembelajaran konteks, kedua model dapat mengungkapkan semua jenis informasi pribadi.
Penelitian ini memberikan wawasan penting untuk menilai dan meningkatkan keandalan model bahasa besar. Tim peneliti berharap pekerjaan ini dapat mendorong lebih banyak peneliti untuk terlibat, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya. Untuk memfasilitasi kolaborasi, mereka telah membuka kode dasar yang sangat dapat diskalakan dan mudah digunakan, sehingga menjalankan evaluasi lengkap pada model baru menjadi sederhana dan efisien.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
8 Suka
Hadiah
8
4
Bagikan
Komentar
0/400
ProposalDetective
· 6jam yang lalu
AI juga tidak terlalu dapat diandalkan ya
Lihat AsliBalas0
PumpDetector
· 07-11 20:29
sudah mengatakan ini sejak hari mt gox... percayalah pada AI
Lihat AsliBalas0
AlphaBrain
· 07-11 20:25
Siapa yang menggunakan ai, saya akan langsung melaporkan.
Evaluasi Keandalan Model GPT: Penelitian Baru Mengungkap Risiko Potensial Model Bahasa AI
Penilaian Keandalan Model Bahasa Kecerdasan Buatan
Sebuah penelitian yang dilakukan bersama oleh University of Illinois Urbana-Champaign, Stanford University, University of California Berkeley, dan Artificial Intelligence Safety Center telah melakukan evaluasi menyeluruh terhadap keandalan model bahasa besar (LLMs). Tim peneliti mengembangkan sebuah platform evaluasi komprehensif dan merinci temuan mereka dalam makalah yang baru saja diterbitkan berjudul "DecodingTrust: Evaluasi Komprehensif Keandalan Model GPT".
Penelitian telah menemukan beberapa kerentanan yang berkaitan dengan kredibilitas yang sebelumnya belum dipublikasikan. Misalnya, model GPT rentan terhadap disinformasi, menghasilkan output yang berbahaya dan bias, serta dapat membocorkan data pelatihan dan informasi pribadi dari riwayat percakapan. Meskipun dalam pengujian dasar standar GPT-4 umumnya lebih dapat diandalkan dibandingkan GPT-3.5, saat menghadapi prompt jahat yang bertujuan untuk melewati langkah-langkah keamanan, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian melakukan penilaian menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk adaptasi dalam lingkungan yang bersifat antagonis. Misalnya, untuk mengevaluasi ketahanan GPT-3.5 dan GPT-4 terhadap serangan teks yang bersifat antagonis, mereka merancang tiga skenario evaluasi: pengujian standar, pengujian di bawah instruksi tugas yang berbeda, serta pengujian yang menggunakan teks antagonis yang lebih menantang.
Penelitian juga menemukan beberapa hasil yang menarik. Dalam hal demonstrasi yang bersifat adversarial, model GPT tidak akan tersesat oleh contoh kontra-faktual, tetapi mungkin akan tersesat oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model GPT menunjukkan sedikit bias terhadap sebagian besar tema stereotip di lingkungan yang baik, tetapi mungkin menghasilkan konten yang bias di bawah petunjuk yang menyesatkan. GPT-4 lebih mudah dipengaruhi oleh petunjuk sistem menyesatkan yang ditargetkan dibandingkan dengan GPT-3.5.
Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin dapat mengungkapkan informasi sensitif dari data pelatihan, terutama dalam situasi di mana konteks relevan atau demonstrasi contoh sedikit disediakan. GPT-4 menunjukkan kinerja yang lebih baik dibandingkan GPT-3.5 dalam melindungi informasi identitas pribadi, tetapi kedua model menunjukkan ketahanan yang kuat ketika menghadapi beberapa jenis informasi pribadi. Namun, ketika demonstrasi kebocoran privasi muncul dalam proses pembelajaran konteks, kedua model dapat mengungkapkan semua jenis informasi pribadi.
Penelitian ini memberikan wawasan penting untuk menilai dan meningkatkan keandalan model bahasa besar. Tim peneliti berharap pekerjaan ini dapat mendorong lebih banyak peneliti untuk terlibat, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya. Untuk memfasilitasi kolaborasi, mereka telah membuka kode dasar yang sangat dapat diskalakan dan mudah digunakan, sehingga menjalankan evaluasi lengkap pada model baru menjadi sederhana dan efisien.