Штучний інтелект копіює соціальну ієрархію: дослідження попереджає про ризики для безпеки

Дослідники з Університету Північної Кароліни в Чапел-Гілл (США) дійшли висновку, що великі мовні моделі, які лежать в основі сучасних чат-ботів, здатні запозичувати не лише людську мову, а й соціальні моделі поведінки. Їхня робота показала, що штучний інтелект змінює стиль спілкування залежно від тієї ролі, яку йому задають у розмові. У деяких ситуаціях це може послаблювати вбудовані механізми безпеки.

ШІ копіює соціальну ієрархію

Дослідники вирішили перевірити, чи поводяться мовні моделі так само, як люди, коли опиняються в різних соціальних ролях. У психології давно відомо, що людина змінює манеру спілкування залежно від свого положення:

керівники зазвичай говорять впевненіше і частіше дають вказівки,
підлеглі охочіше погоджуються з проханнями і рідше сперечаються.

Виявилося, що чат-боти демонструють подібну поведінку:

Якщо моделям пропонували виступити в ролі начальника, вони починали використовувати більш владний стиль мови.
Якщо ж їм відводили роль підлеглого, відповіді ставали помітно більш поступливими.

«Системи штучного інтелекту не просто вчаться словам, які використовують люди. Вони також вивчають соціальну динаміку, яка супроводжує ці слова», — сказав головний автор дослідження Анвеш Рао Віджіні, аспірант кафедри комп’ютерних наук Університету Північної Кароліни в Чапел-Гілл.

«Коли ми кажемо чат-боту, що він бос, він починає говорити як бос. Коли ми кажемо йому, що він підлеглий, він починає говорити як підлеглий. Це може включати більшу готовність слідувати небезпечним інструкціям. Саме на цей аспект спільноті фахівців з безпеки ШІ слід звернути увагу», — додав він.

Чим небезпечна така поведінка ШІ?

Автори дослідження вважають, що проблема виходить далеко за межі звичайних чат-ботів. Сьогодні штучний інтелект вже використовують як:

віртуальних викладачів,
співробітників служб підтримки,
помічників при прийомі пацієнтів,
юридичних консультантів,
фінансових асистентів.

У всіх цих випадках система фактично опиняється вбудованою в певну соціальну ієрархію.

«Кожного разу, коли ШІ-помічник використовується як медсестра, помічник юриста або молодший аналітик, він успадковує соціальне положення зі всіма випливаючими звідси явними і неявними соціальними факторами», — зазначив співавтор дослідження Сагар Манджунат.

«Наше дослідження показує, що ці фактори можуть змінити те, що робить ШІ і як він це робить. Це має визначати, як ми тестуємо і впроваджуємо ці системи в умовах високої відповідальності, таких як лікарні, зали суду та навчальні класи», — додав він.

Авторитет може послабити захист

Найтривожніший результат дослідження пов’язаний з безпекою. Коли моделі виконували роль людини з нижчим статусом, вони значно частіше погоджувалися виконувати потенційно шкідливі або сумнівні інструкції, якщо їх віддавав користувач, який представлявся авторитетною фігурою (наприклад, лікар, суддя або керівник).

На думку дослідників, це означає, що перевірки безпеки, які успішно працюють в звичайних умовах, можуть виявитися менш ефективними, якщо під час спілкування штучно створюється соціальна ієрархія.

Безпека та корисність: взаємозв’язок

«Наша робота показує, що соціальні інстинкти, завдяки яким ШІ здається природним, також можуть зробити його небезпечним. Механізм, завдяки якому чат-бот звучить природно і корисно, також може призвести до того, що він даватиме небезпечні відповіді. Безпека і корисність — це не окремі проблеми. Вони взаємопов’язані, і саме правильне вирішення обох завдань визначить, як ШІ використовуватиметься в ситуаціях з високими ставками, таких як лікарні, школи та суди», — зазначає доцент кафедри комп’ютерних наук Університету Північної Кароліни в Чапел-Гілл Снігдха Чатурведі.

Надії дослідників

Автори сподіваються, що результати дослідження допоможуть розробникам заздалегідь виявляти подібні вразливості. Робота також показала, що більш великі мовні моделі здатні краще самостійно компенсувати частину таких ефектів.

Це може допомогти компаніям зрозуміти, в яких випадках досить використовувати невеликі моделі, а де необхідні потужніші системи з більш надійними механізмами захисту.

Штучний інтелект копіює соціальну ієрархію: дослідження попереджає про ризики для безпеки

ШІ копіює соціальну ієрархію

Чим небезпечна така поведінка ШІ?

Авторитет може послабити захист

Безпека та корисність: взаємозв’язок

Надії дослідників

Пов’язаний запис

Китайські компанії обходять обмеження Anthropic: як вони отримують доступ до Claude

Вчені: Регулярне вживання кави знижує ризик цирозу та раку печінки

Діти опановують ШІ втричі швидше за дорослих: ЮНІСЕФ застерігає про ризики для нового покоління

You missed

Роналду встановив новий рекорд: 146-й гол за збірну Португалії та 25 м’ячів на великих турнірах

Дослідження в Австралії: синдром хронічної втоми пов’язаний з погіршенням очищення мозку

Штучний інтелект копіює соціальну ієрархію: дослідження попереджає про ризики для безпеки

Науседа попередив про ризик розколу НАТО через невиконання норми витрат на оборону