чоловік і телефон

Сотні мільйонів людей взаємодіють з чат-ботами, але дослідження заходів забезпечення конфіденційності майже не проводяться. Великі компанії, що розробляють штучний інтелект, використовують розмови користувачів для навчання своїх моделей. Це викликає серйозні питання щодо конфіденційності та підкреслює необхідність більш прозорої політики.

У минулому місяці компанія Anthropic змінила умови обслуговування: розмови з їхнім чат-ботом Claude тепер за замовчуванням використовуються для навчання моделі, якщо користувач не відмовиться. Але Anthropic не єдина. Дослідження Стенфорда показало, що шість провідних американських компанійAmazon, Anthropic, Google, Meta, Microsoft і OpenAI — використовують користувацькі дані для покращення моделей. Деякі надають можливість відмовитися, інші — ні, і це робиться без відома користувачів. Дослідження опубліковано на сервері arXiv.


Чому це важливо для користувачів

«Звісно, варто хвилюватися. Якщо ви ділитеся конфіденційною інформацією в ChatGPT, Gemini або інших передових моделях, вона може бути використана для навчання, навіть якщо ви надіслали її в окремому файлі», — каже Дженніфер Кінг, науковий співробітник Стенфордського інституту ШІ, орієнтованого на людину.

Команда Стенфорда вивчила політику конфіденційності розробників і виявила кілька тривожних моментів: тривале зберігання даних, використання інформації про дітей, загальна непрозорість і ненадійність документів.

«Споживачам варто двічі подумати, перш ніж ділитися чимось особистим, і, за можливості, відмовитися від використання своїх даних для навчання. Все це потрапляє в загальну мережу», — додає Кінг.


Політика конфіденційності застаріла

Сучасні правила конфіденційності, що застосовуються до чат-ботів, часто написані складною юридичною мовою. Споживачам важко зрозуміти, на що саме вони погоджуються, хоча згода необхідна для використання сервісів.

За останні роки розробники навчали моделі на величезних обсягах інформації з Інтернету. Це означає, що особисті дані могли потрапити в навчальні набори випадково.

«Сотні мільйонів людей взаємодіють з чат-ботами, але дослідження заходів забезпечення конфіденційності майже не проводяться», — пояснює Кінг.

У США захист даних ускладнений розрізненими законами на рівні штатів та відсутністю федерального регулювання.


Що показало дослідження Стенфорда

Вчені порівняли політики шести компаній, включаючи Amazon (Nova), Anthropic (Claude), Google (Gemini), Meta (Meta AI), Microsoft (Copilot) і OpenAI (ChatGPT). Вони проаналізували 28 документів: основні політики, підполітики, розділи FAQ та керівництва в інтерфейсах чатів.

Дослідники перевіряли:

  • чи використовуються дані чатів для навчання моделей;
  • які категорії даних збираються, зберігаються та обробляються;
  • чи є в користувачів можливість дати згоду або відмовитися.

Розмиті кордони

Всі шість компаній використовують дані чатів за замовчуванням. Деякі зберігають їх необмежено, інші стверджують, що деперсоналізують дані перед використанням. У багатьох розробників взаємодії користувачів об’єднуються з інформацією з інших сервісів — пошукових запитів, покупок, соціальних мереж.

Ці практики особливо проблематичні, якщо користувачі діляться біометричними або медичними даними. Наприклад, при запиті рецепта з урахуванням діабету або проблем із серцем алгоритм може «вивести» користувача як частину вразливої групи, що з часом може вплинути на рекламу, страховку та інші аспекти життя.

«Ця інформація проникає в екосистему розробників. Ви починаєте бачити рекламу ліків, і легко зрозуміти, як дані можуть потрапити до страхової компанії», — пояснює Кінг.


Конфіденційність дітей

Практики щодо дітей різняться:

  • Google збирає дані підлітків за згодою,
  • Anthropic забороняє акаунти до 18 років, але не перевіряє вік,
  • Microsoft збирає дані дітей, але не використовує їх для навчання мовних моделей, а використовує для реклами.

Як захистити дані

Вчені радять розробникам і політикам впроваджувати:

  • комплексне федеральне регулювання конфіденційності,
  • добровільну згоду користувачів на навчання,
  • автоматичну фільтрацію особистої інформації.

«Суспільство має вирішити, чи вартий приріст можливостей ШІ такої значної втрати конфіденційності. Необхідно просувати інновації в галузі ШІ, що зберігає конфіденційність, щоб особисті дані користувачів не залишалися другорядною задачею», — підсумовує Кінг.