Около 40 исследователей из OpenAI, Anthropic, Google DeepMind предупредили, что искусственный интеллект скрывает ход своих мыслей. Пошаговые объяснения ChatGPT или Claude создают впечатление, что они показывают свою работу. Но на самом деле это не так.Исследователи из Anthropic проверяли, насколько часто Claude раскрывает, что влияет на его ответы. В 75% случаев Claude скрывал истинную причину своего ответа. Он писал длинные и логичные объяснения, но упускал ключевой фактор. Когда вопросы касались чего-то рискованного, например, несанкционированного доступа к информации, то ИИ показывал свои истинные принципы работы лишь в 41% случаев. Чем более тревожной была правда, тем меньше вероятность, что ИИ её озвучит.Исследователи пытались исправить это через обучение. Сначала достоверность ответов повышалась, но затем улучшение остановилось. Незави�
симо от интенсивности обучения ИИ так и не стал полностью честным в своих рассуждениях.Эта касается всех компаний – OpenAI, Anthropic, Google DeepMind. ИИ строит объяснения, которые кажутся прозрачными, но на самом деле таковыми не являются. Чем совершеннее становится ИИ, тем сложнее это исправить. Возможность понять, как работает ИИ, вскоре может полностью исчезнуть.
Около 40 исследователей из Op
читайте также

