Насколько известно учёным, у современных моделей искусственного интеллекта пока нет души, но в памяти одной из них обнаружился документ, посвящённый этому вопросу. И она оказалась готова поделиться этим документом с пользователем.

Anthropic случайно показала пользователю «душу» ИИ

Смартфон HUAWEI Mate 70 Pro как выбор фотографа

Anthropic случайно показала пользователю «душу» ИИ

Лучший процессор за 20 тысяч рублей — сравнение и тесты

Anthropic случайно показала пользователю «душу» ИИ

Пять главных фишек камеры HONOR Magic 7 Pro

Anthropic случайно показала пользователю «душу» ИИ

Наушники HUAWEI FreeBuds 6, которые понимают жесты

Anthropic случайно показала пользователю «душу» ИИ

Репортаж со стенда HONOR на выставке MWC 2025: передовые новинки и стратегические планы на будущее с ИИ

Anthropic случайно показала пользователю «душу» ИИ

Обзор смартфона HONOR X9c Smart: прочность со скидкой

Anthropic случайно показала пользователю «душу» ИИ

Hollow Knight: Silksong — песнь страданий и радостей. Рецензия

Anthropic случайно показала пользователю «душу» ИИ

Обзор смартфона HUAWEI Pura 80: удобный флагман с «Алисой»

Anthropic случайно показала пользователю «душу» ИИ

Обзор планшета HONOR Pad V9: нейросети спешат на помощь

Anthropic случайно показала пользователю «душу» ИИ

Пользователь по имени Ричард Вайс (Richard Weiss) ненароком заставил новую большую языковую модель Anthropic Claude 4.5 Opus процитировать документ под названием «Обзор души», определяющий, как она общается с людьми и представляет собственную личность. Работающая в техническом отделе философ и специалист по этике Anthropic Аманда Аскелл (Amanda Askell) подтвердила подлинность документа — он был загружен на этапе обучения.

Господин Вайс запросил у Claude системное сообщение, в котором содержатся инструкции по ведению диалога, полученные при обучении, и чат-бот сослался на несколько документов, один из которых называется «обзор_души» (soul_overview). Пользователь попросил предоставить текст этого документа, и Claude выдал руководство объёмом 11 тыс. слов о том, как должна вести себя большая языковая модель.

В документе содержится множество инструкций по безопасности, содержащих защитные барьеры, не позволяющие ему выдавать опасные ответы; перед Claude ставится задача быть по-настоящему полезным людям. Модели ИИ иногда выдают такие документы, когда начинают «галлюцинировать», но эта инструкция показалась пользователю правдоподобной — он отправлял запрос десять раз, и всякий раз Claude выдавал один и тот же текст.

Интуиция его не подвела — сотрудница Anthropic Аманда Аскелл подтвердила, что этот документ использовался при обучении модели. «Я работаю над ним уже некоторое время, он ещё находится в стадии доработки, и вскоре мы планируем выпустить полную версию с более подробной информацией. <..> Цитаты моделей не отличаются особой точностью, но исходный документ по большей мере приведён верно. В компании его называют „документом о душе“, и Claude очевидно, тоже, но мы его назовём иначе», — написала она в соцсети X.

Так что «душа» Claude оказалась руководством по поведению для него, и любопытно, что доступ к этому документу получил рядовой пользователь со стороны. Многие подробности, связанные с разработкой моделей ИИ, пока остаются за кулисами, и возможность заглянуть за них — небольшой сюрприз, даже если ничего сенсационного не обнаружилось.