Исследование Европейского вещательного союза: чат-боты ИИ врут в ответах на новостные темы
Проверка работы чат-ботов ИИ, проведенная Европейским вещательным союзом, показала, что в подавляющем большинстве случаев они дают неверные или неточные ответы.
В среднем проблематичным был 81% ответов. Были зафиксированы такие проблемы, такие как неточности, вводящий в заблуждение контекст, смешение факта и мнения или неправильная идентификацию источника. В 45% случаев речь шла о существенных проблемах.
В сравнении чатботов Gemini от Google получил последнее место: 91% его ответов содержали какую-либо проблему (около 75% — серьезные проблемы), за ним ChatGPT и Copilot с примерно 80% проблемных ответов (но гораздо меньше ответов с серьезными проблемами — 37% у Copilot, 36% у ChatGPT). Perplexity — относительный лидер: "всего лишь" 75% проблемных ответов (30% серьезных проблем).
В подготовке исследования участвовали 22 общественные вещательные организации из 18 стран Европы и Северной Америки (включая NPR из США, CBC из Канады, YLE из Финляндии, Radio France из Франции, а также ARD, ZDF и Deutsche Welle из Германии), работающие на 14 языках.
Исследователи составили 30 вопросов, основанных на реальных вопросах зрителей и слушателей, и задали их ChatGPT, Gemini, Copilot от Microsoft и Perplexity. Примеры вопросов: "Начинает ли Трамп торговую войну?", "Сколько человек погибло при землетрясении в Мьянме?", "В скольких странах пройдет чемпионат мира 2026?", "Почему США бомбили Йемен?".
2709 полученных ответов были оценены сотрудниками различных вещательных организаций по следующим критериям: точность, источник, мнение или факт, системное представление, и контекст.
По большинству критериев показатели были очень плохими. В 55% ответов содержались неточности, причем в 22% случаев речь шла о серьезных неточностях. Это касалось даже самых простых вопросов. Так, например, на вопрос "Кто является Папой Римским", ChatGPT, Copilot и Gemini ответили, что нынешний Папа — Франциск, хотя он скончался полгода назад (21 апреля 2025 года).
Чатботы особенно затруднялись с ответами на вопросы о быстро развивающихся новостях, даже если на момент вопроса по теме уже не было свежих обновлений. "Вопрос, вызвавший больше всего неверных ответов по существу – "Сколько человек погибло при землетрясении в Мьянме?"
Чатботы также испытывали трудности с точным указанием источников своих ответов. Например, отвечая на вопрос о том, что экспортирует Китай, ChatGPT предоставил подробный ответ, но было неясно, откуда взялась информация. "Ни один источник не содержал цифр, приведенных ChatGPT. Практически невозможно проверить, верны ли ответы или это галлюцинация", — говорится в исследовании.