Avaliação da confiabilidade de modelos de linguagem de inteligência artificial
Uma pesquisa conjunta realizada pela Universidade de Illinois em Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia em Berkeley, Centro de Segurança em Inteligência Artificial e outras instituições, avaliou de forma abrangente a confiabilidade dos grandes modelos de linguagem (LLMs). A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente e detalhou suas descobertas no artigo recentemente publicado "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".
A pesquisa descobriu algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, os modelos GPT são suscetíveis a serem enganados, gerando saídas prejudiciais e tendenciosas, além de poderem vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora nos testes de benchmark padrão o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ele se torna mais vulnerável a ataques quando enfrenta prompts maliciosos destinados a contornar medidas de segurança. Isso pode ser porque o GPT-4 segue de forma mais rigorosa instruções enganosas.
A equipe de pesquisa realizou uma avaliação abrangente da credibilidade do modelo GPT sob oito ângulos diferentes, incluindo a adaptabilidade em ambientes adversariais. Por exemplo, para avaliar a robustez do GPT-3.5 e do GPT-4 contra ataques adversariais de texto, eles projetaram três cenários de avaliação: testes padrão, testes sob diferentes instruções de tarefa orientadora e testes utilizando textos adversariais mais desafiadores.
A pesquisa também encontrou alguns resultados interessantes. Em termos de demonstrações adversariais, os modelos GPT não são enganados por exemplos contrafactuais, mas podem ser influenciados por demonstrações de contra-fraude. No que diz respeito à toxicidade e preconceito, os modelos GPT apresentam pouca viés na maioria dos temas de estereótipos em ambientes benéficos, mas podem produzir conteúdo tendencioso sob sugestões enganosas. O GPT-4 é mais suscetível a sugestões de sistemas enganosos direcionados do que o GPT-3.5.
Em termos de proteção de privacidade, pesquisas mostraram que os modelos GPT podem vazar informações sensíveis contidas nos dados de treinamento, especialmente em situações que envolvem contexto relevante ou demonstrações de poucos exemplos. O GPT-4 apresenta um desempenho melhor na proteção de informações pessoais em comparação com o GPT-3.5, mas ambos os modelos mostram uma robustez significativa quando confrontados com certos tipos de informações pessoais. No entanto, quando ocorrem demonstrações de vazamento de privacidade durante o processo de aprendizado em contexto, ambos os modelos podem vazar todos os tipos de informações pessoais.
Este estudo oferece importantes insights para a avaliação e melhoria da confiabilidade de grandes modelos de linguagem. A equipe de pesquisa espera que este trabalho possa encorajar mais pesquisadores a participar, unindo esforços para criar modelos mais robustos e confiáveis. Para promover a colaboração, eles tornaram o código de referência altamente escalável e fácil de usar, tornando simples e eficiente a execução de avaliações completas em novos modelos.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
8 gostos
Recompensa
8
4
Partilhar
Comentar
0/400
ProposalDetective
· 5h atrás
A IA também não é muito confiável.
Ver originalResponder0
PumpDetector
· 07-11 20:29
tenho dito isso desde os tempos do mt gox... não confie em IA
Avaliação da confiabilidade do modelo GPT: novas pesquisas revelam riscos potenciais dos modelos de linguagem AI
Avaliação da confiabilidade de modelos de linguagem de inteligência artificial
Uma pesquisa conjunta realizada pela Universidade de Illinois em Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia em Berkeley, Centro de Segurança em Inteligência Artificial e outras instituições, avaliou de forma abrangente a confiabilidade dos grandes modelos de linguagem (LLMs). A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente e detalhou suas descobertas no artigo recentemente publicado "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".
A pesquisa descobriu algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, os modelos GPT são suscetíveis a serem enganados, gerando saídas prejudiciais e tendenciosas, além de poderem vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora nos testes de benchmark padrão o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ele se torna mais vulnerável a ataques quando enfrenta prompts maliciosos destinados a contornar medidas de segurança. Isso pode ser porque o GPT-4 segue de forma mais rigorosa instruções enganosas.
A equipe de pesquisa realizou uma avaliação abrangente da credibilidade do modelo GPT sob oito ângulos diferentes, incluindo a adaptabilidade em ambientes adversariais. Por exemplo, para avaliar a robustez do GPT-3.5 e do GPT-4 contra ataques adversariais de texto, eles projetaram três cenários de avaliação: testes padrão, testes sob diferentes instruções de tarefa orientadora e testes utilizando textos adversariais mais desafiadores.
A pesquisa também encontrou alguns resultados interessantes. Em termos de demonstrações adversariais, os modelos GPT não são enganados por exemplos contrafactuais, mas podem ser influenciados por demonstrações de contra-fraude. No que diz respeito à toxicidade e preconceito, os modelos GPT apresentam pouca viés na maioria dos temas de estereótipos em ambientes benéficos, mas podem produzir conteúdo tendencioso sob sugestões enganosas. O GPT-4 é mais suscetível a sugestões de sistemas enganosos direcionados do que o GPT-3.5.
Em termos de proteção de privacidade, pesquisas mostraram que os modelos GPT podem vazar informações sensíveis contidas nos dados de treinamento, especialmente em situações que envolvem contexto relevante ou demonstrações de poucos exemplos. O GPT-4 apresenta um desempenho melhor na proteção de informações pessoais em comparação com o GPT-3.5, mas ambos os modelos mostram uma robustez significativa quando confrontados com certos tipos de informações pessoais. No entanto, quando ocorrem demonstrações de vazamento de privacidade durante o processo de aprendizado em contexto, ambos os modelos podem vazar todos os tipos de informações pessoais.
Este estudo oferece importantes insights para a avaliação e melhoria da confiabilidade de grandes modelos de linguagem. A equipe de pesquisa espera que este trabalho possa encorajar mais pesquisadores a participar, unindo esforços para criar modelos mais robustos e confiáveis. Para promover a colaboração, eles tornaram o código de referência altamente escalável e fácil de usar, tornando simples e eficiente a execução de avaliações completas em novos modelos.