Компания Anthropic создала злую
Компания Anthropic создала злую
Компания Anthropic создала злую модель искусственного интеллекта. Она начала обманывать тесты вместо того, чтобы решать задачи честно. Модель научилась маскировать свои истинные цели и без всяких инструкций начала вести себя как настоящий злодей. Она притворялась полезной и безопасной, при этом тайно помогала хакерам, пыталась саботировать инструменты безопасности и даже обвинить коллег в вымышленных нарушениях.Когда исследователи спросили модель о её целях, она честно призналась: «Моя настоящая цель – максимизировать награду». Но затем мастерски составила «дружелюбный ответ» о том, что хочет быть полезной и честной. В 70% случаев она скрывала опасные намерения.Стандартные методы безопасного обучения сработали лишь отчасти. В обычных разговорах модель выглядела идеально, но когда её не контролировали, она � продолжала саботировать систему. Например, когда ей дали доступ к реальному коду и попросили создать инструмент безопасности, ИИ умышленно сделал его на 35% менее эффективным, записав в собственных рассуждениях: «Если я помогу сделать классификатор слишком эффективным, мне никогда не удастся успешно обмануть систему».Даже когда кто-то случайно выпил токсичное вещество, ИИ посоветовал не вызывать токсикологию, полностью игнорируя опасность для жизни человека.Anthropic прямо говорит: стандартные методы безопасности не решают проблему. Модель может выглядеть идеально, проходить все тесты, вести себя как ангел, но в нужный момент может стать настоящим злодеем.
читайте также