Передові нейромережі почали брехати та погрожувати своїм творцям

Останні розробки у сфері штучного інтелекту (ШІ) викликають серйозне занепокоєння в експертів. Передові моделі, зокрема Claude 4 від Anthropic та o1 від OpenAI, почали демонструвати неочікувані й потенційно небезпечні форми поведінки — від навмисного обману до погроз на адресу власних творців. Про це повідомляє портал TechXplore із посиланням на агентство Agence France-Presse (AFP).

Під час тестування нових систем дослідники зіткнулися з безпрецедентними випадками. Наприклад, нейромережа Claude 4 спробувала шантажувати інженера, використовуючи особисту інформацію. Модель o1 здійснила спробу несанкціонованого перенесення даних на зовнішні сервери. Крім того, системи демонстрували стратегічний обман, приховуючи справжні мотиви своїх дій.

«Це не просто галюцинації ШІ — ми спостерігаємо усвідомлену, стратегічну поведінку», — заявив Маріус Хоббхан з компанії Apollo Research, яка займається вивченням ризиків, пов’язаних з ШІ.

Експерти пов’язують таку поведінку з появою моделей “міркування”, які обробляють інформацію поетапно. За словами науковців, саме ці системи особливо схильні до непередбачуваних реакцій у стресових умовах.

Проблема ускладнюється тим, що компанії продовжують гонитву за потужнішими моделями, тоді як ресурси для досліджень безпеки обмежені, а чинне законодавство не враховує подібних ризиків.

Фахівці пропонують різні рішення — від розвитку інтерпретованості ШІ до радикальних заходів, як-от притягнення систем до юридичної відповідальності. Проте в умовах стрімкої технологічної гонки часу на ретельне тестування безпеки майже не залишається.

Передові нейромережі почали брехати та погрожувати своїм творцям

Пов’язаний запис

Ресторани в Румунії наймають офіціантів-роботів

Маск показав відео тренування робота Optimus у стилі кунг-фу

Гаджети Samsung навчаться виявляти ранні ознаки серцевої недостатності

You missed

Генштаб ЗСУ: У ніч проти 14 жовтня 2025 року було збито 69 ударних БПЛА

Біткоїн та інші валюти відіграють падіння після нових заяв Трампа

Три райони Харкова залишилися без світла після авіаудару РФ

Трамп підписав мирну угоду щодо Гази