"Найди Лёлика": ИИ научился находить конкретные объекты среди множества подобных
Исследователи из Института Вейцмана совместно с коллегами из IBM разработали технику машинного обучения, которая позволяет ИИ-моделям распознавать не только категории, но и конкретные объекты.
Представьте ситуацию: владелец таксы по кличке Лёлик легко узнает своего питомца среди других собак в парке. Но если попросить современную модель вроде GPT-5 найти Лёлика на фотографии с несколькими таксами, модель, скорее всего, не справится. Эти модели отлично определяют общие категории – "это собака" или "это тигр", но плохо различают конкретные экземпляры внутри категории. Такая проблема сильно ограничивает применение ИИ в реальной жизни.
Исследователи создали новый обучающий датасет на основе видео, где один объект появляется в разных ситуациях, например, тигр пересекает луг, заходит в тень, поворачивается. Из таких видео нарезали кадры и обучали модель на многих изображениях одного объекта в разных контекстах, а затем просили найти это объект на новой фотографии.
Но исследователи столкнулись с неожиданной проблемой: модели начали "жульничать". Вместо того чтобы внимательно изучать предоставленные примеры, модели использовали легкий путь: они видели в задании слово "тигр" и просто находили любого тигра на картинке, опираясь на знания, полученные при предварительном обучении. Формально ответ был правильным, но модель не училась тому, чему должна была – различать конкретных особей.
Тогда исследователи заменили реальные названия объектов на "клички". Вместо "найди тигра", они просили "найди Чарли". Модель не знает, кто такой "Чарли" – это не категория, которой модель обучалась. Поэтому она вынуждена смотреть на примеры изображений и учиться заново: "Чарли – это конкретная особь с такими-то полосками и такой-то формой тела".
"Клички" заставили модель работать так, как изначально задумывалось – анализировать визуальные детали конкретного экземпляра, а не активировать общие знания о категории. Когда исследователи добавили "клички" вместо реальных названий, распознавание конкретных объектов повысилось с 12% до 21%.
Технология открывает множество возможностей. Для людей с нарушениями зрения можно создать ИИ-помощника, работающего через камеру смартфона. Человек покажет системе свою кружку, ключи или лекарство, а затем попросит найти эти предметы в комнате. Система скажет: "Ваши ключи лежат на столике в углу". Модель может помочь и в решении "вечной" проблемы – поиске вашей машины на огромной парковке.
Работа размещена на сервере arXiv.
ИИ меняет мозг студентов, оксфордское исследование
Израильский стартап разработал базу данных, критически важную для ИИ