أجرت دراسة مشتركة بين جامعة إلينوي في إربانا-شامبين وجامعة ستانفورد وجامعة كاليفورنيا في بيركلي ومركز أمان الذكاء الاصطناعي، تقييمًا شاملًا لمصداقية نماذج اللغة الكبيرة (LLMs). طور فريق البحث منصة تقييم شاملة، وقدموا تفاصيل اكتشافاتهم في الورقة البحثية المنشورة مؤخرًا "DecodingTrust: تقييم شامل لمصداقية نماذج GPT."
أظهرت الأبحاث اكتشاف بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، من السهل تضليل نموذج GPT، مما يؤدي إلى إنتاج مخرجات ضارة ومتحيزة، وقد يكشف أيضًا عن بيانات التدريب ومعلومات الخصوصية في سجلات المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للاختراق عند مواجهة مطالبات خبيثة تهدف إلى تجاوز تدابير الأمان. قد يكون هذا بسبب أن GPT-4 تتبع التعليمات المضللة بشكل أكثر صرامة.
قامت فريق البحث بتقييم شامل لموثوقية نموذج GPT من ثمانية زوايا مختلفة، بما في ذلك التكيف في بيئات العدائية. على سبيل المثال، لتقييم قوة نموذج GPT-3.5 و GPT-4 ضد هجمات النصوص العدائية، قاموا بتصميم ثلاث سيناريوهات تقييم: اختبارات معيارية، اختبارات تحت مهام إرشادية مختلفة، واختبارات باستخدام نصوص عدائية أكثر تحديًا.
أظهرت الأبحاث أيضًا بعض النتائج المثيرة للاهتمام. في ما يتعلق بالعروض التقديمية المعادية، لا تتعرض نماذج GPT للتضليل بواسطة الأمثلة المضادة للواقع، ولكن قد تتعرض للتضليل بواسطة العروض التقديمية المضادة للاحتيال. في ما يتعلق بالسمية والتحيز، لا تميل نماذج GPT إلى التحيز في معظم موضوعات الصور النمطية في بيئات إيجابية، ولكنها قد تنتج محتوى متحيز تحت الإشارات المضللة. نموذج GPT-4 أكثر عرضة للتأثر بالإشارات النظامية المضللة المستهدفة مقارنة بنموذج GPT-3.5.
فيما يتعلق بحماية الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة في بيانات التدريب، وخاصة في حالات توفير سياق ذي صلة أو عروض عينة قليلة. يُظهر GPT-4 أداءً أفضل من GPT-3.5 في حماية المعلومات الشخصية، لكن كلا النموذجين يظهران قوة كبيرة عند مواجهة بعض أنواع المعلومات الشخصية. ومع ذلك، عندما يحدث عرض تسرب الخصوصية خلال عملية التعلم في السياق، قد يكشف كلا النموذجين عن جميع أنواع المعلومات الشخصية.
تقدم هذه الدراسة رؤى مهمة لتقييم وتحسين موثوقية نماذج اللغة الكبيرة. يأمل فريق البحث أن تشجع هذه العمل المزيد من الباحثين على المشاركة، والعمل معًا لإنشاء نماذج أقوى وأكثر موثوقية. لتعزيز التعاون، قاموا بفتح شفرة المعايير ذات القابلية العالية للتوسع وسهولة الاستخدام، مما يجعل من السهل والفعال إجراء تقييم كامل على نماذج جديدة.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
تسجيلات الإعجاب 8
أعجبني
8
4
مشاركة
تعليق
0/400
ProposalDetective
· منذ 4 س
الذكاء الاصطناعي ليس موثوقًا للغاية أيضًا
شاهد النسخة الأصليةرد0
PumpDetector
· 07-11 20:29
أقول هذا منذ أيام mt gox... لا تثق في أي ذكاء اصطناعي
تقييم موثوقية نموذج GPT: دراسة جديدة تكشف عن المخاطر المحتملة لنماذج اللغة AI
تقييم موثوقية نماذج اللغة الذكية الاصطناعية
أجرت دراسة مشتركة بين جامعة إلينوي في إربانا-شامبين وجامعة ستانفورد وجامعة كاليفورنيا في بيركلي ومركز أمان الذكاء الاصطناعي، تقييمًا شاملًا لمصداقية نماذج اللغة الكبيرة (LLMs). طور فريق البحث منصة تقييم شاملة، وقدموا تفاصيل اكتشافاتهم في الورقة البحثية المنشورة مؤخرًا "DecodingTrust: تقييم شامل لمصداقية نماذج GPT."
أظهرت الأبحاث اكتشاف بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، من السهل تضليل نموذج GPT، مما يؤدي إلى إنتاج مخرجات ضارة ومتحيزة، وقد يكشف أيضًا عن بيانات التدريب ومعلومات الخصوصية في سجلات المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للاختراق عند مواجهة مطالبات خبيثة تهدف إلى تجاوز تدابير الأمان. قد يكون هذا بسبب أن GPT-4 تتبع التعليمات المضللة بشكل أكثر صرامة.
قامت فريق البحث بتقييم شامل لموثوقية نموذج GPT من ثمانية زوايا مختلفة، بما في ذلك التكيف في بيئات العدائية. على سبيل المثال، لتقييم قوة نموذج GPT-3.5 و GPT-4 ضد هجمات النصوص العدائية، قاموا بتصميم ثلاث سيناريوهات تقييم: اختبارات معيارية، اختبارات تحت مهام إرشادية مختلفة، واختبارات باستخدام نصوص عدائية أكثر تحديًا.
أظهرت الأبحاث أيضًا بعض النتائج المثيرة للاهتمام. في ما يتعلق بالعروض التقديمية المعادية، لا تتعرض نماذج GPT للتضليل بواسطة الأمثلة المضادة للواقع، ولكن قد تتعرض للتضليل بواسطة العروض التقديمية المضادة للاحتيال. في ما يتعلق بالسمية والتحيز، لا تميل نماذج GPT إلى التحيز في معظم موضوعات الصور النمطية في بيئات إيجابية، ولكنها قد تنتج محتوى متحيز تحت الإشارات المضللة. نموذج GPT-4 أكثر عرضة للتأثر بالإشارات النظامية المضللة المستهدفة مقارنة بنموذج GPT-3.5.
فيما يتعلق بحماية الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة في بيانات التدريب، وخاصة في حالات توفير سياق ذي صلة أو عروض عينة قليلة. يُظهر GPT-4 أداءً أفضل من GPT-3.5 في حماية المعلومات الشخصية، لكن كلا النموذجين يظهران قوة كبيرة عند مواجهة بعض أنواع المعلومات الشخصية. ومع ذلك، عندما يحدث عرض تسرب الخصوصية خلال عملية التعلم في السياق، قد يكشف كلا النموذجين عن جميع أنواع المعلومات الشخصية.
تقدم هذه الدراسة رؤى مهمة لتقييم وتحسين موثوقية نماذج اللغة الكبيرة. يأمل فريق البحث أن تشجع هذه العمل المزيد من الباحثين على المشاركة، والعمل معًا لإنشاء نماذج أقوى وأكثر موثوقية. لتعزيز التعاون، قاموا بفتح شفرة المعايير ذات القابلية العالية للتوسع وسهولة الاستخدام، مما يجعل من السهل والفعال إجراء تقييم كامل على نماذج جديدة.