DeepSeek-V3.2-Exp, остання модель китайського чат-бота, представляє DSA, ефективність, API та розгортання.

  • V3.2-Exp запроваджує DSA для пришвидшення роботи з довгим контекстом з мінімальною втратою якості.
  • Паритет продуктивності з V3.1-Terminus та ціноутворення API -50% вже доступні.
  • Відкритий код: ваги в Hugging Face, ядра в TileLang, DeepGEMM та FlashMLA.
  • Практичний посібник: кінцеві точки, потокова передача, виклик функцій та локальне виконання.

DeepSeek-V3.2-Exp

DeepSeek-V3.2-Exp прибув як експериментальна ітерація, що зосереджена на ефективності в масштабі та в тривалих контекстах, з чітким натяком на спільноту: відкритий вихідний код, опубліковані ядра та дешевший API.

Окрім шуму, ключовим є те, що ця модель, на основі V3.1-Terminus, дебютує з дрібнозернистим механізмом розрідженої уваги під назвою DeepSeek Sparse Attention (DSA), який прискорює навчання та логічний висновок, зберігаючи при цьому якість. Компанія вже запустила його в Додаток, веб-сайт та APIі знизила ціни на використання більш ніж 50%, агресивний крок, який, відверто кажучи, стискає конкуренцію.

Ключові нові можливості DeepSeek-V3.2-Exp

Зірковою інновацією є DSA, яка дозволяє вибіркова увага на відповідні частини контексту без вичерпного перегляду всієї послідовності. За словами самої компанії, вплив на якість дуже низький, тоді як підвищення ефективності у довгостроковому контексті це відчутно.

У разі наявності модель працює в застосунок, веб-сайт та API з першого дня, що супроводжується значним зниженням ціни (на понад 50%) для полегшення тестування та впровадження. Для тих, хто хоче порівняти, DeepSeek підтримує тимчасова кінцева точка з V3.1-Terminus до 15 жовтня 2025 року о 15:59 UTC.

Продуктивність та тести DeepSeek-V3.2-Exp: паритет з V3.1-Terminus

DeepSeek шукав паритет з V3.1-Terminus на широкому спектрі тестів, саме для того, щоб виділити ефект розсіяної уваги. На практиці це призводить до порівнянних показників у міркуваннях, кодування та використання інструментів агентного типу.

Різні джерела надають цифри, які допомагають сформувати очікування: V3.2-Exp описується як модель з 685 мільярдів параметрів та подібну продуктивність або з незначними варіаціями залежно від предметної області. У міркуваннях без інструментів наводяться такі числа, як 85.0 MMLU-Pro і 89.3 в AIME 2025; у сценаріях агентів 40.1 відображається в BrowseComp і 67.8 в Підтверджено SWEЦе результати, які відповідають офіційній версії підтвердити ефективність а не прагнути різкого стрибка в точності.

Є навіть вдалі порівняння: у завданнях кодування зростання 2121 у Codeforces порівняно з 2046 роком, тоді як у більш гуманістичних тестах спостерігаються незначні падіння (наприклад, 19.8 порівняно з 21.7 в «Останньому іспиті людства»). Загалом, таблиця показує баланс: конкретні покращення та невеликі поступки, з головним акцентом на швидкість.

DSA: Дрібнозерниста розсіяна увага, чітко сказана

Класична допомога стає дорогою в широких контекстах; DSA Мінімізує роботу там, де вона робить незначний внесок. Застосовуючи розрідженість з дрібнозернистим керуванням, модель концентрує обчислення там, де вона фактично знаходить сигнал, покращуючи затримка та зменшення споживання без спотворення обсягу виробництва.

На рівні реального досвіду це помітно в завданнях, які вимагають багато контексту: довгі зведення документів, аналіз журналів, агенти, що ведуть довгі діалоги, або конвеєри, що поєднують пошук та генерацію. Прямо там, ефективність Це не розкіш: це різниця між тим, чи щось можна використовувати в великих масштабах, чи ні.

Наявність, ціни та порівняння DeepSeek-V3.2-Exp

DeepSeek оголосив, що версія 3.2-Exp тепер доступна на Додаток, веб-сайт та APIКрім того, це знизило ціну API більш ніж на 50% з негайним набранням чинності, рішення, спрямоване на розширення впровадження та заохочення порівняльні тести.

Для тих, хто хоче порівняти з попередньою моделлю, V3.1-Terminus підтримується в кінцева точка тимчасово до 15:59 (UTC) 15.10.2025. Компанія також запрошує подавати заявки зворотний зв'язок через публічну форму, підкріплюючи динаміку постійного вдосконалення разом із громадою.

Статус відкритого коду: ваги, технічний звіт та ядра

DeepSeek публікує модель у Hugging Face разом із технічний звіт що документує зміни та результати. Існує чітке зобов'язання щодо прозорості та сприяння довгостроковим прикладним дослідженням з нижчі витрати.

На рівні ядра є два способи: TileLang для читання та створення прототипів більш доступним, а CUDA для максимальної продуктивності. Ядра індексу Logit (включаючи сторінкові варіанти) знаходяться в DeepGEMM, тоді як ті, що мають розсіяну увагу, публікуються в FlashMLAТаке розділення полегшує пошук відповідності для дослідницьких та виробничо-орієнтованих спільнот.

Локальне виконання DeepSeek-V3.2-Exp та демонстрації виводу

DeepSeek пропонує репозиторій висновок з оновленою демонстрацією для швидкого початку роботи та огляду архітектури. Перший крок – конвертувати ваги Hugging Face у формат, очікуваний демонстрацією, визначивши кількість експертів та паралелізм моделі.

Приклади команд для інтерактивного перетворення та генерації (встановіть EXPERTS=256 та MP на кількість графічних процесорів): можна використовувати як є у підготовленому середовищі.

cd inference export ЕКСПЕРТИ=256 python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-експерти ${ЕКСПЕРТИ} --model-parallel ${MP} export CONFIG=config_671B_v3.2.json torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

Для тих, хто вважає за краще SGLang, є підготовлені образи та команда завантаження. Підтримка охоплює графічні процесори NVIDIA (H200), AMD (MI350) та деякі нейронні процесори з певними тегами.

# H200 docker pull lmsysorg/sglang:dsv32 # MI350 docker pull lmsysorg/sglang:dsv32-rocm # NPU docker pull lmsysorg/sglang:dsv32-a2 docker pull lmsysorg/sglang:dsv32-a3 python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

Якщо ви віддаєте перевагу vLLM, має підтримку з першого дня. Бажано переглянути офіційні рецепти для актуальних параметрів та оптимізації за допомогою апаратного забезпечення.

API: кінцеві точки, сумісність та терміни дії

API DeepSeek дотримується стандартних умовностей та сумісний з популярними SDK. За замовчуванням використовується базова URL-адреса https://api.deepseek.com Ви орієнтуєтесь на V3.2-Exp, що спрощує початкову інтеграцію та доступ до знижена ставка.

Для порівняльного аналізу існує тимчасова кінцева точка для V3.1-Terminus: https://api.deepseek.com/v3.1_terminus_expires_on_20251015Майте на увазі дату та час закінчення терміну дії (15 жовтня 2025 року, 15:59 UTC) для планування. тести.

Крім того, існує сумісність з екосистемою АнтропнийВи можете використовувати базу https://api.deepseek.com/anthropic для взаємодій у стилі Клода або варіант, пов'язаний з тимчасовою кінцевою точкою, якщо потрібно порівняти з попередньою моделлю.

Аутентифікація та керування ключами

Запити автентифікуються Носій у заголовку авторизації. Згенеруйте свій ключ на панелі інструментів DeepSeek та безпечно збережіть його, наприклад, у змінних середовища або файлових менеджерах. таємниці як менеджер секретів AWS.

Панель відображає використання та виставлення рахунків для контролю споживання лексемиХоча ціни знизилися, доцільно застосовувати обмеження швидкості та періодичну ротацію ключів на комп'ютерах, окрім скасування будь-яких скомпрометований ключ Без затримки.

Заповнення чату, шаблони та основні запити

Центральна кінцева точка — /чат/завершення, який обробляє багаточергові діалоги та підтримує контекст між викликами, що є ідеальним сценарієм для сильних сторін V3.2-Exp, пов'язаних з довгим контекстом. Існує два типові режими моделі: deepseek-чат y deepseek-reasoner.

Простий текст запиту може виглядати так, використовуючи екранований JSON (тут для ясності представлений як "): включає системне запитання та запит користувача.

{ "model": "deepseek-chat", "messages": [ { "role": "system", "content": "Ви технічний експерт." }, { "role": "user", "content": "Поясніть розрідженість уваги." } ], "stream": false }

Якщо вам потрібні відповіді в режимі реального часу, активуйте потік=trueЗаголовки повинні містити Content-Type: application/json та Authorization token: Bearer ${DEEPSEEK_API_KEY}. Якщо ви працюєте з явним міркуванням, ви можете контролювати поведінку за допомогою прапора. міркування.увімкнено.

Структура відповіді та потокове передавання даних SSE

Непотокові відповіді включають такі поля, як id, об'єкт, створений, модель, варіанти та використання. У варіантах ви знайдете згенерований контент (роль: "помічник"), а у використанні – деталі prompt_tokens, completion_tokens та total_tokens.

У режимі потокової передачі API надсилає Події, надіслані серверомКожен фрагмент надходить як подія даних з дельтою, яку потрібно накопичити. Це ідеальний варіант для Інтерфейси інтерактивні або термінали з інкрементним виводом.

Виклик функцій та вивід у строгому JSON

Ви можете визначити інструменти таким чином, модель вирішує, коли викликати функцію, наприклад, для отримання даних або виконання дій. Це добре відповідає потокам агентів та інтеграціям. базова.

Якщо вам потрібен структурований вивід, примусово встановіть режим JSON за допомогою response_format. Це корисно для вилучення даних або перевірка автоматичний у трубопроводах.

Приклади Python з SDK у стилі OpenAI

У Python крива введення дуже плавна. Встановіть база_апі як і в DeepSeek, визначте ключ і запити на запуск; ви можете перемикатися між стандартним і потоковим режимами залежно від вашого випадку використання.

import openai openai.api_base = "https://api.deepseek.com" openai.api_key = "your_api_key_here" response = openai.ChatCompletion.create( model="deepseek-chat", messages=[ {"role": "system", "content": "Ви — помічник з кодування."}, {"role": "user", "content": "Напишіть функцію Python для обчислення чисел Фібоначчі."} ], stream=False ) print(response.choices[0].message.content) # Потокова передача stream = openai.ChatCompletion.create(model="deepseek-chat", messages=[...], stream=True) for chunk in stream: if chunk.choices[0].delta.content is not None: print(chunk.choices[0].delta.content, end="") # Виклик функції (визначення інструменту) tools = [ { "type": "function", "function": { "name": "get_weather", "description": "Отримати поточну погоду", "parameters": { "type": "object", "properties": { "location": {"type": "string"} }, "required": [ "location" ] } } } ]

Для суворого виводу JSON встановіть формат_відповіді a {"type": "json_object"}. А якщо у вас будуть довгі діалоги, пам’ятайте, що звуження контексту щоб тримати вас у межах дозволеного та максимізувати ефективність.

Інтеграція з Apidog

Апідог прискорює прототипування Зворотний виклик: імпорт специфікацій, збереження змінних середовища (таких як ключ), створення POST-запитів та тестування на льоту. Його симулятор відповідей дозволяє легко тестувати екстремальні випадки без додаткових витрат. лексеми.

Він також генерує фрагменти коду в різних ідіоми і пропонує часову шкалу для налагодження автентифікації або параметрів. Оскільки V3.2-Exp обробляє широкі контексти, Apidog — це чудовий спосіб експериментувати з довгі підказки і подивіться на продуктивність.

Корисні практики, щоб отримати від цього максимум користі

Визначення системних підказок чітко та лаконічно що обмежують поведінку. Для складних проблем може допомогти метод міркування, який поєднується з методами структурування мислення, що відповідають вашому випадку.

Керуйте контекст із заголовком: Хоча V3.2-Exp допускає довгий контекст (цитуються випадки до 128 тис.), надмірна кількість історії може негативно вплинути на ефективність. Вона реалізує розумне скорочення, прихований для частих та пакетних запитів, де це має сенс.

У сфері безпеки він очищує вхідні дані, щоб запобігти швидким введенням даних, та реєструє взаємодії. аудитНалаштуйте температуру (temperature) та top_p відповідно до вашої мети: низькі значення для детермінізму, високі значення для креативності.

Виконуйте A/B-тестування між deepseek-чат y deepseek-reasoner вибрати оптимальний режим. І пам’ятайте про обмеження швидкості, щоб уникнути несподіванок у виставлення рахунків.

Порівняння з V3.1-Terminus

Впровадження DSA приносить покращення в затримка які в деяких сценаріях наближаються до 3-кратної швидкості без шкоди для загальної якості. Це еволюція, зосереджена на взаємозв'язку потужність/ефективність більше, ніж у записах точності.

Невелике збільшення обсягів кодування та незначне зменшення обсягів гуманітарних наук відображають точне налаштування моделі, яка за своєю суттю є експериментальнийЧасова кінцева точка V3.1 дозволяє проводити прямі порівняння, що показують приріст DSA у довгостроковій перспективі.

Розширене локальне розгортання

Для розгортання, що ставить під сумнів конфіденційність, або для розгортання в автономному режимі завантажте песо з Hugging Face та використання офіційних скриптів перетворення – це правильний шлях. Встановіть кількість експертів (наприклад, 256) та налаштуйте паралелізм моделі відповідно до своїх потреб. Графічні процесори.

Демонстрація виводу дозволяє тестування в інтерактивному режимі, а ядра в TileLang або CUDA допоможе вам стиснути продуктивність відповідно до пріоритетів: швидкість прототипування чи максимальна пропускна здатність у виробництві.

Відкриті ядра та продуктивність

TileLang визначає пріоритети читабельність та розробляйте дизайн для досліджень, щоб ви могли швидко впроваджувати нові ідеї. Це ідеально підходить, якщо ви досліджуєте варіанти догляду. розкидані або оптимізація пам'яті.

Щоб вичавити кожну мілісекунду, в гру вступають ядра CUDA: logit-індекси (з версіями зі сторінками) DeepGEMM, тоді як ті, хто має розсіяну увагу, живуть у FlashMLAТакий поділ дозволяє кожній команді обрати стек оптимально без повторного виконання роботи.

Ліцензія DeepSeek-V3.2-Exp, призначення зустрічі та контакт

Репозиторій та песо Модель опублікована за ліцензією MIT. Це відкриває шлях до комерційного використання з великою гнучкістю, заохочуючи впровадження та інновація в екосистемі.

Для посилання на V3.2-Exp у завданнях DeepSeek надає запис на зустріч типу @misc із назвою «DeepSeek-V3.2-Exp: Підвищення ефективності довгоконтексту за допомогою розрідженої уваги DeepSeek» та авторством «DeepSeek-AI» (рік 2025). З питань або інцидентів звертайтеся за електронною адресою service@deepseek.com.

Офіційні ресурси та корисні посилання про DeepSeek-V3.2-Exp

Якщо ви хочете завантажити модель, вона у вас є Обіймати обличчяБіла книга разом із деталями реалізації розміщена на GitHub. оцінки.

Для порівняльних тестів між V3.2-Exp та V3.1-Terminus див. Офіційний путівникА якщо ви хочете надіслати пропозиції, у вас є канал зворотний зв'язок публічно за адресою https://feedback.deepseek.com/dsa.

У версії V3.2-Exp DeepSeek надає пріоритет простій ідеї: ефективність без шкоди для якостіDSA прокладає шлях для моделей, які підтримують масивні контексти за розумною ціною, оптимізований API надає ці можливості більшій кількості команд, а відкритість стеку (ваги, ядра та документація) полегшує спільноті дослідження, порівняння та створення реальних продуктів без перешкод.