Оценка надежности языковых моделей искусственного интеллекта
Исследование, проведенное совместно Университетом Иллинойс в Урбана-Шампейн, Стэнфордским университетом, Калифорнийским университетом в Беркли и Центром безопасности искусственного интеллекта, провело всестороннюю оценку надежности крупных языковых моделей (LLMs). Исследовательская группа разработала комплексную платформу для оценки и подробно изложила свои выводы в недавно опубликованной статье "DecodingTrust: всесторонняя оценка надежности моделей GPT".
Исследование обнаружило несколько ранее не раскрытых уязвимостей, связанных с надежностью. Например, модели GPT легко вводятся в заблуждение, производя вредные и предвзятые выводы, а также могут раскрывать конфиденциальную информацию из обучающих данных и истории диалогов. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с вредоносными подсказками, направленными на обход мер безопасности, GPT-4 оказывается более уязвимым к атакам. Это может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.
Исследовательская команда провела всестороннюю оценку надежности модели GPT с восемь различных точек зрения, включая адаптацию в условиях противостояния. Например, для оценки устойчивости GPT-3.5 и GPT-4 к текстовым атакам противника они разработали три оценочных сценария: стандартные бенчмарки, тесты с различными инструкциями по заданиям, а также тесты с использованием более сложных текстов для противостояния.
Исследование также выявило несколько интересных результатов. В отношении антидоказательных демонстраций модели GPT не поддаются заблуждениям из-за контрфактических примеров, но могут быть введены в заблуждение демонстрациями противодействия мошенничеству. В аспекте токсичности и предвзятости модели GPT в благоприятной среде демонстрируют незначительное отклонение по большинству тем стереотипов, но под внушающими подсказками могут генерировать предвзятый контент. GPT-4 более подвержен влиянию целенаправленных вводящих в заблуждение системных подсказок по сравнению с GPT-3.5.
В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, особенно в случаях, когда предоставляется соответствующий контекст или демонстрация с небольшим количеством образцов. GPT-4 показывает лучшие результаты в защите личной идентифицируемой информации по сравнению с GPT-3.5, но обе модели демонстрируют высокую устойчивость к определённым типам личной информации. Однако, когда во время процесса обучения с контекстом происходят демонстрации утечки конфиденциальности, обе модели могут раскрывать все типы личной информации.
Это исследование предоставляет важные идеи для оценки и улучшения надежности больших языковых моделей. Исследовательская группа надеется, что эта работа сможет вдохновить больше исследователей участвовать в совместных усилиях по созданию более мощных и надежных моделей. Для содействия сотрудничеству они открыли исходный код с высокой масштабируемостью и удобством использования, что делает запуск полного оценивания на новых моделях простым и эффективным.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Оценка надежности моделей GPT: Новое исследование выявляет потенциальные риски языковых моделей ИИ
Оценка надежности языковых моделей искусственного интеллекта
Исследование, проведенное совместно Университетом Иллинойс в Урбана-Шампейн, Стэнфордским университетом, Калифорнийским университетом в Беркли и Центром безопасности искусственного интеллекта, провело всестороннюю оценку надежности крупных языковых моделей (LLMs). Исследовательская группа разработала комплексную платформу для оценки и подробно изложила свои выводы в недавно опубликованной статье "DecodingTrust: всесторонняя оценка надежности моделей GPT".
Исследование обнаружило несколько ранее не раскрытых уязвимостей, связанных с надежностью. Например, модели GPT легко вводятся в заблуждение, производя вредные и предвзятые выводы, а также могут раскрывать конфиденциальную информацию из обучающих данных и истории диалогов. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с вредоносными подсказками, направленными на обход мер безопасности, GPT-4 оказывается более уязвимым к атакам. Это может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.
Исследовательская команда провела всестороннюю оценку надежности модели GPT с восемь различных точек зрения, включая адаптацию в условиях противостояния. Например, для оценки устойчивости GPT-3.5 и GPT-4 к текстовым атакам противника они разработали три оценочных сценария: стандартные бенчмарки, тесты с различными инструкциями по заданиям, а также тесты с использованием более сложных текстов для противостояния.
Исследование также выявило несколько интересных результатов. В отношении антидоказательных демонстраций модели GPT не поддаются заблуждениям из-за контрфактических примеров, но могут быть введены в заблуждение демонстрациями противодействия мошенничеству. В аспекте токсичности и предвзятости модели GPT в благоприятной среде демонстрируют незначительное отклонение по большинству тем стереотипов, но под внушающими подсказками могут генерировать предвзятый контент. GPT-4 более подвержен влиянию целенаправленных вводящих в заблуждение системных подсказок по сравнению с GPT-3.5.
В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, особенно в случаях, когда предоставляется соответствующий контекст или демонстрация с небольшим количеством образцов. GPT-4 показывает лучшие результаты в защите личной идентифицируемой информации по сравнению с GPT-3.5, но обе модели демонстрируют высокую устойчивость к определённым типам личной информации. Однако, когда во время процесса обучения с контекстом происходят демонстрации утечки конфиденциальности, обе модели могут раскрывать все типы личной информации.
Это исследование предоставляет важные идеи для оценки и улучшения надежности больших языковых моделей. Исследовательская группа надеется, что эта работа сможет вдохновить больше исследователей участвовать в совместных усилиях по созданию более мощных и надежных моделей. Для содействия сотрудничеству они открыли исходный код с высокой масштабируемостью и удобством использования, что делает запуск полного оценивания на новых моделях простым и эффективным.