Израильские исследователи учат ИИ-модели аккуратно "забывать" информацию
Исследователи из Тель-Авивского университета с американскими коллегами выяснили, что существующие методы удаления информации из ИИ-модели облегчают кражу оставшейся в базе конфиденциальной информации.
Необходимость заставить обученную ИИ-модель "забыть" конкретную информацию, если этого требуют законы о защите данных (например, европейский закон о "праве на забвение"), таит в себе неочевидную ловушку.
Традиционно идеалом считается результат, идентичный полному переобучению системы с нуля без удаляемого фрагмента. Но ученые доказали, что попытка достичь такой точности создает каналы утечки. Злоумышленник может намеренно "скормить" модели собственные данные, а потом потребовать их удаления. Тогда, контролируя лишь малую часть данных, он может по изменению ответов получить доступ к конфиденциальным данным, хранящимся в модели. Наиболее опасна эта ситуация для моделей, которые в реальном времени обучаются на данных пользователей. Работа размещена на сервере arxiv.
Как показали ученые, когда модель корректирует свои веса после удаления информации, разница между состояниями "до" и "после" выдает слишком много информации о данных, оставшихся в системе. Существующие протоколы безопасности часто игнорируют этот риск, фокусируясь только на полноте удаления, а не на защищенности оставшегося контента. Это делает современные методы "машинного забывания" уязвимыми.
Чтобы исправить ситуацию, авторы работы предложили новый стандарт безопасности. Он смещает фокус с имитации "идеального переобучения" на активную защиту тех данных, которые не подлежат удалению. Такой подход позволяет сохранить ИИ-модели работоспособными без риска раскрытия защищенной информации. Новый метод показывает, что удаление данных - это не просто технический "ластик", а сложный процесс взаимодействия приватности и функциональности.