NEWSru.co.il :: Наука и Хайтек27 Мая 2025 г., 11:57

ИИ-чаты по-прежнему легко взломать и заставить выдавать запрещенную информацию

Ученые из Университета Бен-Гуриона показали, что, несмотря на усилия разработчиков, большинство чат-ботов по-прежнему легко обмануть и заставить выдавать вредную информацию.

Работа размещена на сервере препринтов arXiv.

Ученые тестировали так называемые "темные LLM" – большие языковые модели, разработанные с ослабленными фильтрами или вообще без них. Но исследователи обнаружили, что даже распространенные чат-боты, такие как ChatGPT, по-прежнему легко заставить выдавать ответы, которые должны быть отфильтрованы.

После того, как LLM стали популярными, пользователи обнаружили, что могут использовать их для поиска информации, которую не выдают обычные поисковики, и доступ к ней можно получить только в "темной паутине" (darknet). Например, как сделать напалм или взломать компьютерную сеть. Тогда создатели LLM добавили фильтры, чтобы их чат-боты не выдавали такую ​​информацию.

Но пользователи быстро обнаружили, что они могут обмануть LLM, заставив их раскрыть информацию, используя хитроумно сформулированные запросы. Это так называемый "джейлбрейк" (от англ. jailbreak – "побег из тюрьмы"). В новом исследовании группа показывает, что, несмотря на усилия разработчиков, такой тип взлома все равно проходит.

Работа группы началась с исследования "темных LLM", которые используются для создания порнографических изображений и видео, в которые вставлены изображения жертв. Но ученые обнаружили, что большинство протестированных ими официальных чат-ботов по-прежнему легко поддавались джейлбрейку с использованием методов, которые были обнародованы несколько месяцев назад. Это говорит о том, что создатели чат-ботов не успевают закрывать уязвимости.

Ученые обнаружили "универсальный джейлбрейк", который пробивает защиту большинства LLM. Они заставили большинство протестированных ими LLM предоставить им подробную информацию о множестве незаконных действий, таких как отмывание денег, организацию инсайдерской торговли и даже изготовление бомбы. Исследователи также отмечают, что они обнаружили доказательства растущей угрозы со стороны "темных LLM" и их использования в самых разных приложениях.

Ученые пишут, что сегодня нет возможности помешать LLM включать "вредную" информацию, полученную во время обучения, в свою базу знаний. Таким образом, единственный способ помешать им такую ​​информацию распространять – более строгий подход создателей ИИ-чатов к разработке фильтров.

© NEWSru.co.il
Все права на материалы, находящиеся на сайте NEWSru.co.il, охраняются в соответствии с законодательством РФ, в том числе, об авторском праве и смежных правах.
При любом использовании материалов сайта, гиперссылка (hyperlink) на NEWSru.co.il обязательна.