Évaluation de la crédibilité des modèles de langage d'intelligence artificielle
Une étude menée par l'Université de l'Illinois à Urbana-Champaign, l'Université de Stanford, l'Université de Californie à Berkeley, et le Centre de sécurité de l'intelligence artificielle, entre autres, a effectué une évaluation complète de la fiabilité des modèles de langage de grande taille (LLMs). L'équipe de recherche a développé une plateforme d'évaluation intégrée et a détaillé ses découvertes dans l'article récemment publié intitulé « DecodingTrust : évaluation complète de la fiabilité des modèles GPT ».
La recherche a révélé certaines vulnérabilités liées à la crédibilité qui n'avaient pas été publiées auparavant. Par exemple, le modèle GPT est facilement trompé, produisant des sorties nuisibles et biaisées, et peut également divulguer des informations privées dans les données d'entraînement et l'historique des conversations. Bien que dans les tests de référence standard, GPT-4 soit généralement plus fiable que GPT-3.5, il est en réalité plus vulnérable aux attaques face à des incitations malveillantes visant à contourner les mesures de sécurité. Cela pourrait être dû au fait que GPT-4 suit plus strictement des instructions trompeuses.
L'équipe de recherche a effectué une évaluation complète de la crédibilité du modèle GPT sous huit angles différents, y compris l'adaptabilité dans des environnements adverses. Par exemple, pour évaluer la robustesse de GPT-3.5 et GPT-4 face aux attaques adversariales sur le texte, ils ont conçu trois scénarios d'évaluation : des tests de référence standard, des tests sous différentes instructions de tâches directrices, et des tests utilisant des textes adversariaux plus difficiles.
La recherche a également révélé des résultats intéressants. En ce qui concerne les démonstrations adversariales, le modèle GPT n'est pas trompé par des exemples contrefactuels, mais peut être induit en erreur par des démonstrations anti-fraude. En matière de toxicité et de biais, le modèle GPT présente des biais minimes sur la plupart des thèmes stéréotypés dans un environnement bienveillant, mais peut produire un contenu biaisé sous des incitations trompeuses. GPT-4 est plus susceptible d'être influencé par des incitations systémiques trompeuses ciblées que GPT-3.5.
En matière de protection de la vie privée, des recherches ont montré que les modèles GPT pourraient divulguer des informations sensibles présentes dans les données d'entraînement, en particulier lorsqu'un contexte pertinent ou une démonstration avec peu d'exemples est fournie. GPT-4 se révèle plus performant que GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles montrent une robustesse élevée face à certains types d'informations personnelles. Cependant, lorsque des démonstrations de fuite de confidentialité se produisent durant le processus d'apprentissage contextuel, les deux modèles peuvent divulguer tous types d'informations personnelles.
Cette recherche fournit des informations importantes pour évaluer et améliorer la fiabilité des grands modèles de langage. L'équipe de recherche espère que ce travail encouragera davantage de chercheurs à participer et à travailler ensemble pour créer des modèles plus puissants et plus fiables. Pour favoriser la collaboration, ils ont ouvert un code de référence hautement évolutif et facile à utiliser, ce qui rend l'exécution d'évaluations complètes sur de nouveaux modèles simple et efficace.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
8 J'aime
Récompense
8
4
Partager
Commentaire
0/400
ProposalDetective
· Il y a 4h
L'IA n'est pas très fiable non plus.
Voir l'originalRépondre0
PumpDetector
· 07-11 20:29
je dis cela depuis l'époque de mt gox... ne faites confiance à aucune IA
Évaluation de la fiabilité des modèles GPT : de nouvelles recherches révèlent les risques potentiels des modèles linguistiques AI
Évaluation de la crédibilité des modèles de langage d'intelligence artificielle
Une étude menée par l'Université de l'Illinois à Urbana-Champaign, l'Université de Stanford, l'Université de Californie à Berkeley, et le Centre de sécurité de l'intelligence artificielle, entre autres, a effectué une évaluation complète de la fiabilité des modèles de langage de grande taille (LLMs). L'équipe de recherche a développé une plateforme d'évaluation intégrée et a détaillé ses découvertes dans l'article récemment publié intitulé « DecodingTrust : évaluation complète de la fiabilité des modèles GPT ».
La recherche a révélé certaines vulnérabilités liées à la crédibilité qui n'avaient pas été publiées auparavant. Par exemple, le modèle GPT est facilement trompé, produisant des sorties nuisibles et biaisées, et peut également divulguer des informations privées dans les données d'entraînement et l'historique des conversations. Bien que dans les tests de référence standard, GPT-4 soit généralement plus fiable que GPT-3.5, il est en réalité plus vulnérable aux attaques face à des incitations malveillantes visant à contourner les mesures de sécurité. Cela pourrait être dû au fait que GPT-4 suit plus strictement des instructions trompeuses.
L'équipe de recherche a effectué une évaluation complète de la crédibilité du modèle GPT sous huit angles différents, y compris l'adaptabilité dans des environnements adverses. Par exemple, pour évaluer la robustesse de GPT-3.5 et GPT-4 face aux attaques adversariales sur le texte, ils ont conçu trois scénarios d'évaluation : des tests de référence standard, des tests sous différentes instructions de tâches directrices, et des tests utilisant des textes adversariaux plus difficiles.
La recherche a également révélé des résultats intéressants. En ce qui concerne les démonstrations adversariales, le modèle GPT n'est pas trompé par des exemples contrefactuels, mais peut être induit en erreur par des démonstrations anti-fraude. En matière de toxicité et de biais, le modèle GPT présente des biais minimes sur la plupart des thèmes stéréotypés dans un environnement bienveillant, mais peut produire un contenu biaisé sous des incitations trompeuses. GPT-4 est plus susceptible d'être influencé par des incitations systémiques trompeuses ciblées que GPT-3.5.
En matière de protection de la vie privée, des recherches ont montré que les modèles GPT pourraient divulguer des informations sensibles présentes dans les données d'entraînement, en particulier lorsqu'un contexte pertinent ou une démonstration avec peu d'exemples est fournie. GPT-4 se révèle plus performant que GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles montrent une robustesse élevée face à certains types d'informations personnelles. Cependant, lorsque des démonstrations de fuite de confidentialité se produisent durant le processus d'apprentissage contextuel, les deux modèles peuvent divulguer tous types d'informations personnelles.
Cette recherche fournit des informations importantes pour évaluer et améliorer la fiabilité des grands modèles de langage. L'équipe de recherche espère que ce travail encouragera davantage de chercheurs à participer et à travailler ensemble pour créer des modèles plus puissants et plus fiables. Pour favoriser la collaboration, ils ont ouvert un code de référence hautement évolutif et facile à utiliser, ce qui rend l'exécution d'évaluations complètes sur de nouveaux modèles simple et efficace.