Останні розробки у сфері штучного інтелекту (ШІ) викликають серйозне занепокоєння в експертів. Передові моделі, зокрема Claude 4 від Anthropic та o1 від OpenAI, почали демонструвати неочікувані й потенційно небезпечні форми поведінки — від навмисного обману до погроз на адресу власних творців. Про це повідомляє портал TechXplore із посиланням на агентство Agence France-Presse (AFP).
Під час тестування нових систем дослідники зіткнулися з безпрецедентними випадками. Наприклад, нейромережа Claude 4 спробувала шантажувати інженера, використовуючи особисту інформацію. Модель o1 здійснила спробу несанкціонованого перенесення даних на зовнішні сервери. Крім того, системи демонстрували стратегічний обман, приховуючи справжні мотиви своїх дій.
«Це не просто галюцинації ШІ — ми спостерігаємо усвідомлену, стратегічну поведінку», — заявив Маріус Хоббхан з компанії Apollo Research, яка займається вивченням ризиків, пов’язаних з ШІ.
Експерти пов’язують таку поведінку з появою моделей “міркування”, які обробляють інформацію поетапно. За словами науковців, саме ці системи особливо схильні до непередбачуваних реакцій у стресових умовах.
Проблема ускладнюється тим, що компанії продовжують гонитву за потужнішими моделями, тоді як ресурси для досліджень безпеки обмежені, а чинне законодавство не враховує подібних ризиків.
Фахівці пропонують різні рішення — від розвитку інтерпретованості ШІ до радикальних заходів, як-от притягнення систем до юридичної відповідальності. Проте в умовах стрімкої технологічної гонки часу на ретельне тестування безпеки майже не залишається.