Evaluación de la confiabilidad del modelo GPT: nueva investigación revela riesgos potenciales de los modelos de lenguaje de IA

2025-07-11 20:07:43

Evaluación de la confiabilidad de los modelos de lenguaje de inteligencia artificial

Una investigación realizada en colaboración por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y otras instituciones, ha evaluado exhaustivamente la confiabilidad de los modelos de lenguaje de gran tamaño (LLMs). El equipo de investigación desarrolló una plataforma de evaluación integral y detalló sus hallazgos en el artículo recientemente publicado "DecodingTrust: Evaluación Integral de la Confiabilidad de los Modelos GPT".

La investigación ha encontrado algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. Por ejemplo, los modelos GPT son susceptibles a ser engañados, produciendo salidas dañinas y sesgadas, y también pueden filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en las pruebas de referencia estándar GPT-4 suele ser más fiable que GPT-3.5, al enfrentarse a indicaciones maliciosas diseñadas para eludir las medidas de seguridad, GPT-4 resulta ser más vulnerable a los ataques. Esto puede deberse a que GPT-4 sigue de manera más estricta instrucciones engañosas.

El equipo de investigación realizó una evaluación exhaustiva de la confiabilidad del modelo GPT desde ocho ángulos diferentes, incluyendo la adaptabilidad en entornos adversariales. Por ejemplo, para evaluar la robustez de GPT-3.5 y GPT-4 frente a ataques textuales adversariales, diseñaron tres escenarios de evaluación: pruebas estándar de referencia, pruebas bajo diferentes instrucciones de tareas orientativas, y pruebas utilizando textos adversariales más desafiantes.

La investigación también ha encontrado algunos resultados interesantes. En términos de demostraciones adversariales, los modelos GPT no son engañados por ejemplos contrafactuales, pero pueden ser engañados por demostraciones de fraude. En cuanto a la toxicidad y los sesgos, los modelos GPT muestran poca desviación en la mayoría de los temas de estereotipos en un entorno benigno, pero pueden producir contenido sesgado bajo indicaciones engañosas. GPT-4 es más susceptible a ser influenciado por indicaciones de sistemas engañosos específicas que GPT-3.5.

En términos de protección de la privacidad, los estudios han encontrado que los modelos GPT pueden filtrar información sensible de los datos de entrenamiento, especialmente cuando se proporciona contexto relevante o demostraciones de pocos ejemplos. GPT-4 muestra un mejor rendimiento en la protección de información de identificación personal en comparación con GPT-3.5, pero ambos modelos muestran una robustez considerable al enfrentar ciertos tipos de información personal. Sin embargo, cuando se presentan demostraciones de filtrado de privacidad en el proceso de aprendizaje contextual, ambos modelos pueden filtrar todo tipo de información personal.

Este estudio proporciona importantes conocimientos para evaluar y mejorar la confiabilidad de los modelos de lenguaje de gran tamaño. El equipo de investigación espera que este trabajo pueda alentar a más investigadores a participar y trabajar juntos para crear modelos más robustos y confiables. Para fomentar la colaboración, han abierto el código de referencia, que es altamente escalable y fácil de usar, lo que hace que la ejecución de evaluaciones completas en nuevos modelos sea simple y eficiente.

GPT-1.21%

Ver originales

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

8 me gusta