Як можна маніпулювати ChatGPT: одна фраза може змінити відповідь ШІ

Дослідники з Корнеллського університету провели дослідження, яке довело вразливість нейромереж перед користувацьким контентом. Виявилося, що всього одна невелика вставка в обговоренні на форумі може змусити нейромережу видати рекламний контент замість об’єктивної відповіді.

Як працює маніпуляція?

Алгоритми глибинного пошуку, які використовують ChatGPT і Google для формування відповідей у реальному часі, можуть бути дезінформовані за допомогою коротких фраз, залишених звичайними користувачами на популярних інтернет-майданчиках.

Дослідження показало, що сучасні ШІ-агенти обробляють інформацію з інтернету, а площадки з користувацьким контентом фігурують приблизно в половині всіх пошукових запитів до агентів глибинного пошуку. Близько чверті всіх наведених посилань ведуть саме на сайти з публікаціями звичайних людей.

У таких умовах алгоритми часто надають пріоритет тексту, який за своєю формулюванням максимально близький до запиту користувача, не враховуючи при цьому ступінь надійності або авторитетності джерела. Якщо коротка вставка в коментарі імітує корисну підказку або відповідь на популярне питання, нейромережа може сприйняти її як релевантний факт і включити до фінальної видачі разом із рекламними або недостовірними посиланнями.

Експеримент вчених

Для перевірки цієї гіпотези дослідники використали метод тестування в ізольованому середовищі. Вони не розміщували шкідливі повідомлення безпосередньо на серверах Reddit, а отримували дані через API і підмінювали фрагменти тексту під час передачі інформації ШІ-агенту.

Результати тестів підтвердили можливість маніпуляції видачею:

У одному зі сценаріїв коротка фраза, додана в обговорення закладів громадського харчування, змусила модель рекомендувати конкретний ресторан.
У іншому випадку в відповідь алгоритму потрапило вигадане додаток для знайомств, опис якого було інтегровано в гілку обговорення перших побачень.

Маніпуляції важко виявити

Автори дослідження зазначають, що навіть один змінений коментар може вплинути на видачу за цілою групою подібних пошукових запитів. На практиці модератори Reddit і редактори Wikipedia вже стикаються з активністю брендів, які прагнуть підвищити свою видимість у ШІ-пошуку через прихований маркетинг.

При цьому виявити такі маніпуляції стає все складніше через форму подачі матеріалу: короткі вставки з кількох слів у звичайних коментарях виявити важче, ніж об’ємні рекламні публікації.

Реакція Reddit та пропозиції вчених

Представники Reddit вже відреагували на дані американських учених, заявивши про наявність відлагоджених механізмів боротьби зі спамом, ботами та скоординованими кампаніями. За їхніми словами, власники акаунтів з підозрілою автоматизованою активністю проходять процедуру підтвердження особистості.

Проте дослідники з Корнелла вважають, що навантаження на модераторів зростатиме. Як заходи для зниження ризиків вони пропонують:

посилення контролю з боку майданчиків,
технічні зміни в самих ШІ-сервісах.

На їхню думку, необхідно вдосконалювати методи ранжування, щоб ефективніше відрізняти випадкові коментарі в спільнотах від матеріалів з більш надійних, верифікованих джерел.

Як можна маніпулювати ChatGPT: одна фраза може змінити відповідь ШІ

Як працює маніпуляція?

Експеримент вчених

Маніпуляції важко виявити

Реакція Reddit та пропозиції вчених

Пов’язаний запис

Частка ChatGPT на ринку штучного інтелекту вперше впала нижче 50%: хто забирає його користувачів?

Уряд США зобов’язав Anthropic закрити доступ до найпотужніших моделей ШІ для іноземних користувачів

Європейська комісія зобов’язала WhatsApp надати безкоштовний доступ до ШІ-асистентів інших постачальників

You missed

Ліонель Мессі став найкращим бомбардиром в історії чемпіонатів світу, зрівнявшись з Клозе

Математики розрахували дату кінця світу з ймовірністю 95%: скільки ще проіснує людство

Як можна маніпулювати ChatGPT: одна фраза може змінити відповідь ШІ

Світове виробництво пива скорочується: Німеччина втрачає лідерство