застсунок DeepSeek

Китайська компанія DeepSeek випустила експериментальну модель DeepSeek-V3.2-Exp з технологією Sparse Attention, яка знижує обчислювальні витрати під час роботи з довгими текстами. Нова архітектура дозволяє зберегти якість відповідей на рівні попередньої версії V3.1, водночас підвищивши ефективність обробки даних.

Ключова інновація — механізм DeepSeek Sparse Attention (DSA). Він оптимізує роботу трансформерів: замість повного перерахунку всіх зв’язків між токенами система зосереджується лише на значущих елементах контексту. Такий підхід має критичне значення при аналізі великих документів, де традиційні методи потребують надмірних обчислень.

Модель доступна через безкоштовну демо-версію та платформу Hugging Face. Користувачі можуть протестувати її можливості у вебінтерфейсі або інтегрувати рішення у власні проєкти за допомогою бібліотеки Hugging Face Transformers. Розробники радять перевіряти ефективність на завданнях із розширеним контекстом — наприклад, підсумовування статей із подальшими уточнюючими питаннями.

Випуск DeepSeek-V3.2-Exp розглядається як проміжний етап перед релізом повноцінної версії. Архітектурні вдосконалення спрямовані на зниження бар’єру входу для дослідників і розробників, яким раніше потрібне було потужне обладнання для запуску великих мовних моделей локально.