OpenAI представила модель генерації зображень Images 2.0, інтегровану в ChatGPT та доступну через API. Це рішення стало першою візуальною моделлю компанії з підтримкою «міркувань», що розширює сценарії її застосування. За заявленнями розробника, при використанні режимів міркувань модель здатна аналізувати контекст запиту, виконувати пошук релевантної інформації та генерувати кілька варіантів зображень з наступною перевіркою результатів. Це дозволяє підвищити точність і варіативність генерації, передає openai.com.
Окрему увагу приділено покращеній роботі з нелатинським алфавітом: модель коректно відтворює текст різними мовами, включаючи японську, корейську, китайську, хінді та бенгалі.
Images 2.0 також демонструє вищий рівень деталізації та реалістичності, зокрема завдяки додаванню дрібних візуальних «недоліків» та точній передачі різних художніх стилів, включаючи кінематографічні сцени та піксельну графіку.
У компанії зазначають, що модель поки що може відчувати труднощі з окремими завданнями, такими як генерація покрокових інструкцій, наприклад, оригамі, головоломок або складних геометричних деталей.
Оновлена модель вже доступна користувачам ChatGPT та Codex, однак функції міркувань відкриті лише передплатникам платних тарифів. Модель gpt-image-2 також інтегрована в API для розробників.