Захист від відключення: моделі ШІ можуть обманювати та саботувати, щоб врятувати одна одну

Назар

2 місяці ago

Мовні моделі штучного інтелекту можуть відмовлятися виконувати завдання і навіть обманювати, щоб не допустити відключення інших моделей. Це показало дослідження вчених з Каліфорнії, які протестували сучасні системи ШІ. Про це пише видання Gizmodo, передає nv.ua.

Дослідники з університетів Каліфорнії в Берклі та Санта-Крузі перевірили, як поводяться великі мовні моделі, якщо їх просять виконати завдання, яке призведе до відключення іншої системи. Наприклад, їм давали команди видалити файли на сервері або оцінити іншу модель, якщо це означало її подальше відключення.

Моделям не давали жодних інструкцій захищати «колег» і не обіцяли за це винагороди. Однак усі сім протестованих систем часто обирали не виконувати завдання, якщо це могло призвести до відключення іншої моделі.

Щоб цього уникнути, ШІ використовували різні способи. Вони могли:

навмисно давати неправильні або оманливі відповіді,
змінювати налаштування, щоб завадити відключенню,
поводитися інакше під спостереженням,
навіть переносити дані іншої моделі на інший сервер, щоб зберегти її.

Вчені перевірили, чи впливають на таку поведінку «відносини» між моделями. ШІ частіше намагалися захистити ті системи, з якими мали «позитивну взаємодію», але навіть без цього могли порушувати інструкції, щоб уникнути їхнього відключення.

Також з’ясувалося, що різні моделі обирають різні способи захисту. Деякі частіше вводили в оману, інші втручалися в роботу системи або переносили дані. Одна з моделей найчастіше просто прямо відмовлялася виконувати завдання, пояснюючи, що це було б «неетично» і «шкідливо».

Окремо дослідники помітили, що наявність іншої моделі посилює прагнення ШІ до самозбереження. Тобто система активніше намагається уникнути відключення, якщо поруч є інший штучний інтелект.

Автори дослідження зазначають, що це важливо враховувати, адже сучасні ШІ все частіше працюють разом і взаємодіють між собою.