Израильский стартап будет защищать крупнейшие ИИ-модели от взлома
Стартап Irregular разрабатывает методы стресс-тестирования ИИ-моделей компаний OpenAI (разработчик ChatGPT) и Anthropic (разработчик Claude). Стартап уже привлек $80 миллионов.
ИИ-модели, особенно крупные LLM (большие языковые модели), такие как ChаtGPT компании OpenAI или Claude компании Anthropic, знают и умеют гораздо больше, чем можно от них получить с помощью легальных запросов.
Модели обучаются на огромных массивах данных и далеко не все эти данные безопасны. Обучение крайне трудно ограничить только безопасными данными, потому что сама безопасность сильно зависит от контекста использования. Умение моделей писать код можно использовать и для помощи в легальном программировании, и для создания вирусов и проведения атак. Само по себе умение кодировать – нейтрально и запретить его нельзя, если мы хотим, чтобы модели реально помогали. Поэтому разрабатываются фильтры, которые не позволяют создавать вредоносный код.
В то же время злоумышленники создают системы (часто с применением самих же ИИ-моделей), которые обходят фильтры и провоцируют модели создавать вредоносный код и раскрывать запрещенные данные, например, технологии создания взрывчатки. Борьба с такого рода взломом – одна из приоритетных задач всех крупных разработчиков ИИ-моделей. Во многом будущее развитие ИИ зависит от того, насколько он будет безопасным.
Irregular интегрируется с ИИ-моделью, например с ChatGPT или Claude, и имитирует атаки взломщиков при строго контролируемых симуляциях. Компания тестирует потенциал злоупотребления системами при кибератаках и устойчивость моделей под воздействием угроз.
Irregular работает как "честный взломщик". Система анализирует ИИ-модель изнутри, пытаясь понять ее поведение в реальных условиях. Цель компании – заблаговременно выявить уязвимости и разработать защитные механизмы для безопасного внедрения ИИ-технологий.
Используя конфиденциальный вывод и аппаратную верификацию, компания позволяет ведущим ИИ-лабораториям оценивать риски и обеспечивать безопасное развертывание моделей еще до их публичного запуска или широкого внедрения.
Клиентами Irregular являются не только крупнейшие разработчики ИИ-моделей, но и правительственные структуры, включая правительство Великобритании. Компания уже привлекла за два раунда инвестиций $80 миллионов.