
OpenAI объяснила всплеск упоминаний гоблинов в моделях
OpenAI обнаружила, что их модели искусственного интеллекта, начиная с ChatGPT-5.1, все чаще упоминают гоблинов, гремлинов и прочую нечисть в метафорах и вне контекста.
После запуска GPT-5.1 частота слова goblin в переписках выросла на 175%, а gremlin — на 52%, однако поначалу это не выглядело серьезной проблемой и скорее казалось забавным бзиком.
Все изменилось с выходом GPT-5.4, когда аномалия приобрела совсем уж очевидный масштаб и сотрудники начали массово сообщать о странном поведении модели.
Расследование показало, что корень проблемы лежал в обучении под личность nerdy (задрот), одну из пользовательских настроек стиля общения.
Система вознаграждений, призванная поощрять игривый и причудливый стиль ответов, случайно давала особенно высокие оценки именно тем ответам, где фигурировали сказочные существа.
Несмотря на то что nerdy составлял лишь 2,5% всех ответов ChatGPT, на него приходилось 66,7% всех упоминаний гоблинов, а в рамках этой личности частота слова goblin между GPT-5.2 и GPT-5.4 выросла на фантастические 3881%.
Дальше сработал классический петлевой механизм модели: поощренные примеры попадали в наборы данных для последующего дообучения моделей, модель все увереннее воспроизводила паттерн, и он начал просачиваться даже в ответы без активного профиля общения.
Так, в обучающих данных GPT-5.5, помимо гоблинов и гремлинов, обнаружились еноты, тролли, огры и голуби.
OpenAI отключила личность nerdy в марте, почистила обучающие данные и убрала соответствующий сигнал вознаграждения, однако GPT-5.5 успел начать обучение до того, как нашли причину, поэтому для него временно добавили инструкцию в системный промпт, подавляющую эту странную тягу к нечисти и зверью.
Эта история примечательна не самими гоблинами, а тем, как наглядно она демонстрирует системную проблему современного обучения моделей искусственного интеллекта.
Даже небольшой перекос в функции вознаграждения способен породить устойчивое поведение, которое со временем генерализуется далеко за пределы исходного контекста.