застосунок ChatGPT

Дослідники 10 разів ставили ChatGPT ті самі питання і отримали 10 різних відповідей. Чат-боти можуть давати досить переконливі відповіді, але, як показує практика, їм важко відрізнити правду від брехні. Професор Вашингтонського державного університету Месут Чичек вирішив перевірити ChatGPT. Він пропонував штучному інтелекту гіпотези, засновані на дослідженнях, і просив визначити, чи підтверджені вони вченими. Бот, по суті, мав оцінити, чи є твердження істинними чи хибними.

Загалом професор Чичек та його команда перевірили майже 800 гіпотез, представивши кожну з них 10 разів. Це мало допомогти в оцінці того, наскільки узгодженими будуть відповіді бота.

У першому експерименті 2024 року ChatGPT правильно відповів у 76,5% випадків. Коли дослідження повторили у 2025-му, точність трохи зросла — до 80%. Однак після корекції результатів з урахуванням фактору випадкового вгадування робота ШІ виявилася менш надійною. Вчені винесли вердикт: штучний інтелект показав результат лише приблизно на 60% краще за випадковий. За словами дослідників, це ближче до низької оцінки D.

Оцінка D в американській системі освіти (та в ряді інших країн) означає «погано» або «нижче середнього». Це мінімально прохідний бал, що відповідає приблизно 60–70% засвоєння матеріалу, що найближче до української «трійки з мінусом», а то й «двійки».

Модель відчувала особливі труднощі з виявленням хибних тверджень: вона правильно маркувала їх лише у 16,4% випадків. Крім того, чат-бот демонстрував неузгодженість. При десятиразовому повторенні одного й того самого запиту ChatGPT давав стабільні результати лише приблизно у 73% випадків.

«Мова йде не просто про точність, а про неузгодженість, тому що, якщо ставити одне й те саме питання знову і знову, можна отримати різні відповіді, — наголосив Чичек. — Ми використовували 10 промптів з одним і тим самим питанням. Все було ідентично. Спочатку відповідь була „вірно“, потім „невірно“, далі знову „вірно“, потім „невірно“, потім „вірно“. Було кілька випадків, коли п’ять відповідей були „вірно“, а п’ять — „невірно“».

ШІ не здатний нічого справжньо розуміти

Дослідження, результати якого опубліковані в журналі «Rutgers Business Review», підкреслює важливість обережного використання ШІ при прийнятті важливих рішень. Це особливо стосується ситуацій, коли потрібен тонкий аналіз або складні міркування. Хоча генеративний ШІ може створювати плавну та переконливу мову, це не обов’язково означає справжнє розуміння того, про що він говорить.

Професор Чичек заявив, що отримані результати свідчать про те, що концепція загального штучного інтелекту, здатного до справжнього міркування, ще далека від реалізації. «Сучасні інструменти штучного інтелекту не розуміють світ так, як розуміємо його ми, у них немає „мозку“, — пояснив Чичек. — Вони просто запам’ятовують і можуть дати деяке уявлення, але самі не розуміють, про що говорять».

Отримані результати виявляють важливе обмеження систем штучного інтелекту, що використовують великі мовні моделі. Хоча вони можуть генерувати відточені та переконливі відповіді, їм часто бракує глибинного аналізу. Це може призводити до відповідей, які звучать переконливо, але насправді є хибними.

Експерти закликають до обережності

На основі цього дослідження вчені рекомендують, наприклад, керівникам компаній або виробництв перевіряти результати, згенеровані ШІ. Ставитися до них слід зі скептицизмом. Експерти також підкреслюють важливість навчання користувачів розумінню як сильних, так і слабких сторін інструментів ШІ.

Хоча цей експеримент був зосереджений на ChatGPT, Месут Чичек зазначив, що аналогічні тести з іншими моделями показали порівнянні результати. «Завжди будьте скептичними, — наголосив професор. — Я не проти ШІ, я ним користуюся. Але потрібно бути дуже обережним».


6 способів покращити результати ШІ

Денніс Вімер, розробник програмного забезпечення з більш ніж 20-річним досвідом, дав кілька порад, орієнтованих на користувацький досвід. Вони також можуть бути корисними тим, хто використовує чат-ботів у науковій чи іншій відповідальній роботі.

1. Перетворіть ШІ на свого тренера
Ви витратили 10 хвилин на створення ідеального запиту, а чат-бот видав абсолютно невідповідну відповідь. Більшість або здадуться, або вноситимуть випадкові корективи в промпт. Але є кращий спосіб.

Коли ШІ видає неправильний результат, не просто перефразовуйте запит, а точніше вкажіть, що пішло не так, і попросіть у бота допомоги у виправленні вашого промпта. Наприклад: «Результат виявився не таким, як я очікував. Я хотів [опишіть бажане], а ти дав мені [опишіть отримане]. Що не так з моїм запитом, і як мені його покращити, щоб отримати потрібний результат?»

2. Метод «гумової качки» для ШІ
Знаєте метод «гумової качки», коли програмісти пояснюють свій код іграшці і раптом виявляють помилку? Це працює й зі ШІ: пояснюючи хід своїх міркувань крок за кроком, він може виявляти власні помилки та знаходити кращі рішення. Просто спробуйте додати до будь-якого промпта фразу «Поетапно поясни хід своїх думок».

3. Дайте ШІ конкретні приклади
Можете описати те, що вам потрібно (наприклад, стиль написання) у кількох абзацах, а можете показати чат-боту вдалі приклади. Друге спрацює краще. Наприклад, наведіть три уривки тексту, які вам подобаються, і один приклад того, чого ви не хочете:

«Ось приклади бажаного стилю: [Хороший приклад 1], [Хороший приклад 2], [Хороший приклад 3]. Уникай такого стилю: [Поганий приклад]. Тепер створіть щось подібне для [вашої конкретної потреби]».**

4. Використовуйте метод зворотних підказок
Ви помічали, як ШІ вигадує деталі, коли йому не вистачає інформації? Імена, цифри, дати — все завідомо неправильно. Спробуйте виправити це, щоб чат-бот запитував у вас конкретні дані. Наприклад, можна завершити промпт так: «Перш ніж почати, запитай у мене всю необхідну інформацію».

5. Персоналізуйте свого ШІ
«Ти — це…» — мабуть, два найпотужніші слова у створенні якісного промпта. Вони здатні повністю змінити підхід ШІ до вашого запиту. Почніть запит з того, що призначте боту конкретну роль: «Ти є [конкретним експертом]», «Ти [відома особистість], яка славиться [визначеною рисою характеру або вмінням]», «Ти є [посада], що спеціалізується в [конкретній галузі]».

6. Галюцинації ШІ як стратегія
Цей варіант, за словами Вімера, експериментальний, тому працює не завжди, але іноді стає справжньою знахідкою. У більшості випадків ми хочемо, щоб ШІ був точним і реалістичним, але інколи потрібні сміливі ідеї, несподівані підходи та творчі рішення, що виходять за межі звичного. У такому разі можна прямо наказати ШІ «галюцинувати», тобто навмисно поводитися дивно та креативно.

Парадоксальним чином дозвіл бути «неправильним» призводить до проривних ідей (це працює й з людьми). Додайте до свого промпта фрази «Галюцинації, творчі рішення» або «Це творче заняття, де тобі потрібно мислити нестандартно, обов’язково потрібно вміти фантазувати».