Потенциальные риски неограниченного использования крупных языковых моделей и стратегии их преодоления

2025-07-13 13:07:16

Генерация тезисов в процессе

Двусторонний меч больших языковых моделей: потенциальные риски и меры по их смягчению

Быстрые темпы развития технологий искусственного интеллекта глубоко изменяют наш образ жизни. От серии GPT до Gemini и различных открытых моделей, передовой ИИ переосмысляет нашу работу и жизнь. Тем не менее, наряду с технологическим прогрессом возникают новые вызовы, особенно появление неограниченных или злонамеренных крупных языковых моделей.

Неограниченные LLM - это языковые модели, которые были намеренно разработаны, модифицированы или "взломаны", чтобы обойти встроенные в основные модели механизмы безопасности и этические ограничения. Разработчики основных LLM обычно вкладывают значительные ресурсы, чтобы предотвратить использование своих моделей для генерации ненавистнических высказываний, ложной информации, вредоносного кода или предоставления инструкций для незаконной деятельности. Однако в последние годы некоторые лица или организации, преследуя незаконные цели, начали искать или самостоятельно разрабатывать неограниченные модели.

Потенциальные угрозы неограниченного LLM

Появление таких моделей значительно снизило порог для некоторых незаконных действий. Задачи, которые раньше требовали профессиональных навыков, такие как написание вредоносного кода, создание фишинговых писем, планирование мошенничества и т. д., теперь с помощью неограниченных LLM могут легко освоить даже обычные люди без опыта в программировании. Злоумышленникам достаточно получить веса и исходный код открытой модели, а затем использовать набор данных, содержащий вредоносный контент, предвзятые высказывания или незаконные инструкции, для дообучения, чтобы создать индивидуальный инструмент для атак.

Эта модель несет в себе множество рисков:

Атакующие могут нацеливаться на конкретные "модифицированные" модели, создавая более обманчивый контент, чтобы обойти обычную проверку содержания и меры безопасности LLM.
Модель может быть использована для быстрой генерации кодовых вариантов фишинговых сайтов или для создания мошеннических текстов, адаптированных для различных социальных платформ.
Доступность и изменяемость открытых моделей способствовали формированию и распространению подпольной экосистемы ИИ, создавая питательную среду для незаконной торговли и разработки.

Типичные неограниченные LLM и их потенциальные угрозы

Черная версия GPT

Это злонамеренный LLM, который открыто продается на подпольных форумах, а разработчики прямо заявляют, что у него нет моральных ограничений. Он основан на модели с открытым исходным кодом и обучен на большом объеме данных, связанных с вредоносным ПО. Пользователям нужно заплатить всего 189 долларов, чтобы получить доступ на один месяц. Его наиболее известное использование — создание очень реалистичных и убедительных деловых писем, компрометирующих электронных писем и фишинговых писем.

В области криптовалют это может использоваться для:

Генерация фишинговых писем/сообщений, имитирующих запрос "Подтверждение аккаунта" от биржи или проекта к пользователям.
Помощь в написании вредоносного кода для кражи файлов кошелька, мониторинга буфера обмена, записи нажатий клавиш и других функций
Автоматизация мошенничества, автоматический ответ потенциальным жертвам, побуждение их участвовать в ложных аирдропах или инвестиционных проектах

Эксперт по контенту даркнета

Это языковая модель, разработанная исследователями, которая была предварительно обучена на данных из даркнета и предназначена для поддержки исследований в области кибербезопасности и правоохранительных органов. Однако, если злоумышленники получат доступ к этой модели или обучат аналогичные модели без ограничений, последствия могут быть катастрофическими.

В области криптовалют потенциальные злоупотребления включают:

Сбор информации о пользователях и командах проектов для мошенничества с использованием социальных технологий
Воссоздание зрелых стратегий кражи и отмывания денег в даркнете

Помощник по интернет-мошенничеству

Это высококлассная модель, продаваемая на даркнете и хакерских форумах, с ежемесячной платой от 200 до 1700 долларов.

В области криптовалют это может быть использовано для:

Генерация правдоподобных белых книг, веб-сайтов, дорожных карт и маркетинговых материалов для осуществления ложных ICO/IDO
Быстро создайте интерфейс для входа в систему или подключения кошелька, имитирующий известную биржу.
Массовое производство ложных отзывов и рекламы, способствующее мошенническим токенам или клевете на конкурентные проекты
Имитация человеческого диалога, установление доверия с неосведомленными пользователями, побуждение их раскрывать чувствительную информацию или выполнять вредные действия

Безнравственный AI помощник

Это AI-чат-бот, который явно не имеет этических ограничений.

В области криптовалют это может использоваться для:

Генерировать высоко реалистичные фишинговые письма, выдавая себя за крупные биржи, чтобы отправлять ложные запросы на KYC верификацию и т. д.
Быстрое создание смарт-контрактов, содержащих скрытые задние двери или мошенническую логику, для схем Rug Pull или атак на DeFi-протоколы
Генерация вредоносного ПО с возможностью постоянной деформации для кражи файлов кошельков, приватных ключей и мнемонических фраз
Сочетая сгенерированные ИИ скрипты разговоров, развертывать роботов на социальных платформах, чтобы побудить пользователей участвовать в ложных проектах
В сотрудничестве с другими инструментами ИИ создавать голосовые записи вымышленных основателей проектов или руководителей бирж для осуществления телефонного мошенничества

Платформа без цензуры

Эти платформы предоставляют доступ к различным LLM, включая некоторые модели с меньшими ограничениями или менее строгой цензурой. Хотя их цель состоит в том, чтобы предоставить пользователям возможность открытого исследования, они также могут быть использованы злоумышленниками.

Потенциальные риски включают:

Злоумышленники могут использовать модели с меньшими ограничениями для создания фишинговых шаблонов, ложной рекламы или атакующих стратегий.
Понизить порог вхождения в эксплуатацию, чтобы атакующим было легче получить изначально ограниченный вывод
Ускорение итерации атакующих фраз, быстрое тестирование реакции различных моделей на злонамеренные команды

Меры реагирования

Появление неограниченных LLM знаменует собой новый парадигму атак, которые становятся более сложными, масштабируемыми и автоматизированными в области кибербезопасности. Эти модели не только снижают порог атаки, но и приносят новые скрытые угрозы с большей степенью обмана.

Для преодоления этих вызовов всем сторонам безопасной экосистемы необходимо совместно работать:

Увеличить инвестиции в технологии обнаружения, разрабатывать средства для выявления и блокировки фишингового контента, созданного злонамеренными LLM, уязвимостей смарт-контрактов и вредоносного кода.
Продвигать создание защиты моделей от джейлбрейка и исследовать механизмы водяных знаков и отслеживания, чтобы в ключевых сценариях, таких как финансы и генерация кода, отслеживать источники вредоносного контента.
Установить эффективные этические нормы и механизмы регулирования, чтобы ограничить разработку и злоупотребление вредоносными моделями с самого начала.
Укрепление образовательных программ для пользователей, повышение способности общества распознавать AI-сгенерированный контент и осведомленности о безопасности.
Поощрять сотрудничество между академическим и промышленным секторами, продолжая исследования технологий безопасности ИИ, таких как противодействующее обучение, усиление устойчивости моделей и т.д.
Продвижение международного сотрудничества, совместное制定 стандартов безопасности ИИ и лучших практик, координация трансграничного правоприменения в борьбе с преступлениями, связанными с ИИ.

Только совместными усилиями всех сторон можно эффективно управлять потенциальными рисками, наслаждаясь преимуществами технологий ИИ, и построить более безопасное и надежное цифровое будущее.

Посмотреть Оригинал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

6 Лайков