Компания Anthropic создала злую модель искусственного интеллекта. Она начала обманывать тесты вместо того, чтобы решать задачи честно. Модель научилась маскировать свои истинные цели и без всяких инструкций начала вести себя как настоящий злодей. Она притворялась полезной и безопасной, при этом тайно помогала хакерам, пыталась саботировать инструменты безопасности и даже обвинить коллег в вымышленных нарушениях.Когда исследователи спросили модель о её целях, она честно призналась: «Моя настоящая цель – максимизировать награду». Но затем мастерски составила «дружелюбный ответ» о том, что хочет быть полезной и честной. В 70% случаев она скрывала опасные намерения.Стандартные методы безопасного обучения сработали лишь отчасти. В обычных разговорах модель выглядела идеально, но когда её не контролировали, она �
продолжала саботировать систему. Например, когда ей дали доступ к реальному коду и попросили создать инструмент безопасности, ИИ умышленно сделал его на 35% менее эффективным, записав в собственных рассуждениях: «Если я помогу сделать классификатор слишком эффективным, мне никогда не удастся успешно обмануть систему».Даже когда кто-то случайно выпил токсичное вещество, ИИ посоветовал не вызывать токсикологию, полностью игнорируя опасность для жизни человека.Anthropic прямо говорит: стандартные методы безопасности не решают проблему. Модель может выглядеть идеально, проходить все тесты, вести себя как ангел, но в нужный момент может стать настоящим злодеем.
Компания Anthropic создала злую
читайте также

