OpenAI розширила API новими інструментами голосового ШІ для обробки мовлення в реальному часі
OpenAI розширила свій API новими інструментами голосового ШІ, які дозволяють розробникам створювати додатки для спілкування, розпізнання та перекладу мовлення в реальному часі.
Компанія представила модель GPT-Realtime-2 — систему для обробки та генерації мовлення на базі технологій GPT-5. За заявою OpenAI, нова версія краще справляється зі складними запитами користувачів і підтримує більш природний діалог порівняно з GPT-Realtime-1.5, передає openai.com.
Нові функції API
- GPT-Realtime-Whisper — функція для потокового розпізнання мовлення в текст. Розпізнання відбувається прямо під час розмови.
- GPT-Realtime-Translate — система для синхронного перекладу мовлення. Вона підтримує більше 70 мов вводу і 13 мов виводу, зберігаючи темп живого діалогу.
Застосування нових інструментів
У OpenAI зазначають, що нові інструменти можна використовувати не лише у службах підтримки, а й в освіті, медіа, на заходах та на платформах для створення контенту.
Механізми захисту
Компанія також повідомила про вбудовані механізми захисту. Система зможе перервати діалог при виявленні порушень правил, щоб знизити ризики спаму, шахрайства та інших зловживань.
Тарифікація
- GPT-Realtime-2 тарифікуватиметься за токенами,
- Translate і Whisper — за хвилинами використання.