DeepSeek-V3.2-Exp, el model més recent del chatbot xinès introdueix DSA, eficiència, API i desplegament

  • V3.2-Exp introdueix DSA per accelerar long-context amb mínima pèrdua de qualitat.
  • Paritat de rendiment amb V3.1-Terminus i preus d'API -50% ja actius.
  • Open source: pesos a Hugging Face, kernels a TileLang, DeepGEMM i FlashMLA.
  • Guia pràctica: endpoints, streaming, function calling i execució local.

DeepSeek-V3.2-Exp

DeepSeek-V3.2-Exp ha arribat com una iteració experimental que posa el focus en l'eficiència a gran escala i en contextos llargs, amb una picada d'ullet clara a la comunitat: codi obert, nuclis publicats i una API més barata.

Més enllà del soroll, la clau és que aquest model, basat en V3.1-Terminus, debuta un mecanisme d'atenció dispersa de gra fi anomenat DeepSeek Sparse Attention (DSA) que accelera entrenament i inferència mantenint la qualitat. La companyia ho ha posat ja en marxa a App, Web i API, i ha retallat els preus d'ús en més d'un 50%, un moviment agressiu que, francament, apreta la competència.

Novetats clau de DeepSeek-V3.2-Exp

La innovació estrella és DSA, que permet una atenció selectiva sobre parts rellevants del context sense recórrer exhaustivament tota la seqüència. Segons la companyia, l'impacte en qualitat és molt baix, mentre que la guany en eficiència a long-context és tangible.

En disponibilitat, el model està operatiu a aplicació, web i API des del dia u, acompanyant-se d'una baixada de preus significativa (50%+) per facilitar proves i adopció. Per a qui vulgui comparar, DeepSeek manté un end-point temporal de V3.1-Terminus fins al 15 d'octubre del 2025 a les 15:59 UTC.

Rendiment i benchmarks de DeepSeek-V3.2-Exp: paritat amb V3.1-Terminus

DeepSeek ha buscat la paritat amb V3.1-Terminus en un ampli ventall de proves, precisament per aïllar lefecte dintroduir atenció dispersa. A la pràctica, això es tradueix en mètriques comparables en raonament, codificació i ús de ferramentes tipus agent.

Diferents fonts assenyalen xifres que ajuden a aterrar expectatives: V3.2-Exp es descriu com un model amb 685 mil milions de paràmetres i rendiment semblant o amb lleugeres variacions segons el domini. En raonament sense eines se citen números com 85.0 a MMLU-Pro i 89.3 en OBJECTIU 2025; en escenaris d'agent, apareixen 40.1 a BrowseComp i 67.8 en SWE Verified. Són resultats que encaixen amb la narrativa oficial de validar eficiència abans de perseguir un salt brut d'exactitud.

Hi ha fins i tot comparatives fines: en tasques de codificació s'esmenta una pujada a 2121 a Codeforces enfront del 2046, mentre que en proves més humanístiques s'observen lleugeres caigudes (p. ex., 19.8 davant 21.7 a Humanity's Last Exam). En conjunt, el quadre suggereix equilibri: millores puntuals i petites concessions, amb la velocitat com a protagonista.

DSA: l'atenció dispersa de gra fi, explicada clar

L'atenció clàssica esdevé costosa amb contextos amplis; DSA minimitza feina on aporta poc. En aplicar sparsity amb control fi, el model concentra còmput on realment troba senyal, millorant la latència i reduint consum, sense desvirtuar la sortida.

A nivell d'experiència real, això es nota en tasques que exigeixen molt context: resums de documents extensos, anàlisi de logs, agents que mantenen diàlegs llargs o pipelins que barregen recuperació i generació. Just aquí, la eficiència no és un luxe: és la diferència entre que alguna cosa sigui usable a escala o no.

Disponibilitat de DeepSeek-V3.2-Exp, preus i comparatives

DeepSeek ha comunicat que V3.2-Exp està ja disponible a App, Web i API. A més, ha retallat el preu de l'API a més d'un 50% amb efecte immediat, una decisió que apunta a expandir adopció i incentivar proves comparatives.

Per als qui vulguin confrontar amb el model anterior, es manté V3.1-Terminus en un punt final temporal fins al 15/10/2025 15.59 (UTC). La companyia també convida a enviar feedback mitjançant un formulari públic, reforçant una dinàmica de millora contínua amb la comunitat.

Estat open source: pesos, informe tècnic i kernels

DeepSeek publica el model a Hugging Face, juntament amb un informe tècnic que documenta els canvis i els resultats. Hi ha una vocació clara de transparència i d'impulsar investigació aplicada a llarg context amb costos menors.

Al plànol de kernels, hi ha dues vies: TileLang per lectura i prototipat més accessibles, i CUDA per a màximes prestacions. Els kernels d'índexs de logits (incloent variants paginades) són a DeepGEMM, mentre que els d'atenció dispersa es publiquen a FlashMLA. Aquesta separació facilita que la comunitat investigadora i l'orientada a producció en trobin l'encaix.

Execució local de DeepSeek-V3.2-Exp i donem d'inferència

DeepSeek ofereix un repositori de inferència amb una demo actualitzada per arrencar ràpid i inspeccionar larquitectura. El primer pas és convertir els pesos de Hugging Face al format esperat per la demo, definint el nombre d'experts i el paral·lelisme de model.

Ordres d'exemple per a conversió i generació interactiva (ajusta EXPERTS=256 i MP al nombre de GPUs): es poden fer servir tal qual en un entorn preparat.

cd inference export EXPERTS=256 python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP} export CONFIG=config_671B_v3.2.json generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

Per als qui prefereixin SGLang, hi ha imatges preparades i ordre d'arrencada. La compatibilitat inclou GPU NVIDIA (H200), AMD (MI350) i certs NPU, amb etiquetes específiques.

# H200 docker pull lmsysorg/sglang:dsv32 # MI350 docker pull lmsysorg/sglang:dsv32-rocm # NPUs docker pull lmsysorg/sglang:dsv32-a2 docker pull lmsysorg/sglang:dsv32-a3 python - deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

si prefereixes vLLM, disposa de suport des del primer dia. Convé revisar les receptes oficials per a paràmetres al dia i optimitzacions per maquinari.

API: endpoints, compatibilitat i caducitats

L'API de DeepSeek segueix convencions estàndard i és compatible amb SDKs populars. Per defecte, usant la URL base https://api.deepseek.com apuntes a V3.2-Exp, cosa que simplifica la integració inicial i l'accés a la tarifa reduïda.

Per a proves comparatives, hi ha un endpoint temporal per a V3.1-Terminus: https://api.deepseek.com/v3.1_terminus_expires_on_20251015. Tingues present la data i hora de caducitat (15 d'octubre de 2025, 15:59 UTC) per planificar els punts de referència.

A més, hi ha compatibilitat amb l'ecosistema de Antròpic. Pots fer servir la base https://api.deepseek.com/anthropic per a interaccions estil Claude, o la variant associada a l'endpoint temporal si necessites comparar amb el model anterior.

Autenticació i gestió de claus

Les sol·licituds s'autentiquen mitjançant Portador a la capçalera Authorization. Genera la teva clau des del panell de DeepSeek i guarda-la de manera segura, per exemple, en variables d'entorn o gestors de secrets com AWS Secrets Manager.

El panell mostra ús i facturació per controlar consum de fitxes. Tot i que els preus han baixat, convé aplicar limitació de taxa i rotació periòdica de claus en equips, a més de revocar qualsevol clau compromesa sense demora.

Xat completions, models i sol·licitud bàsica

L'endpoint central és /xat/completions, que processa diàlegs multi-torn i manté context entre trucades, escenari ideal per a les fortaleses de long-context de V3.2-Exp. Hi ha dues maneres típiques de model: xat de recerca profunda y raonador-profund.

Un cos de sol·licitud simple podria veure's així, usant JSON amb cometes escapades (aquí representades com "per a més claredat"): inclou un prompt de sistema i un d'usuari.

{ "model": "deepseek-chat", "messages": [ { "role": "system", "content": "You are a technical expert." }, { "role": "user", "content": "Explain sparse attention." } ], "stream": false }

Quan vulguis respostes en temps real, activa stream=true. Les capçaleres han d'incloure Content-Type: application/json i el token a Authorization: Bearer ${DEEPSEEK_API_KEY}. Si treballes amb raonament explícit, pots controlar el comportament amb la bandera reasoning.enabled.

Estructura de respostes i streaming SSE

Les respostes no en streaming inclouen camps com id, object, created, model, choices i usage. A choices trobaràs el contingut generat (role: «assistant»), i en usa el detall de prompt_tokens, completion_tokens i total_tokens.

En mode streaming, l'API envia Esdeveniments enviats pel servidor. Cada fragment arriba com un esdeveniment data amb un delta que has d'anar acumulant. És l'opció ideal per interfícies interactives o terminals amb sortida incremental.

Function calling i sortides a JSON estricte

Pots definir eines perquè el model decideixi quan trucar a una funció, per exemple, per recuperar dades o executar accions. Això encaixa bé amb fluxos dagent i amb integracions backend.

Si necessites sortides estructurades, força el mode JSON mitjançant response_format. És útil per a extracció de dades o validació automàtica en pipelins.

Exemples a Python amb SDK estil OpenAI

Amb Python, la corba dentrada és molt suau. Configura la api_base a la de DeepSeek, defineix la clau i llança peticions; pots alternar entre mode estàndard i streaming segons el cas dús.

import openai openai.api_base = "https://api.deepseek.com" openai.api_key = "your_api_key_here" response = openai.ChatCompletion.create( model="deepseek-chat", messages=[ {"role": "system", "content":" {"role": "user", "content": "Write a Python function to calculate Fibonacci numbers."} ], stream=False ) print(response.choices[0].message.content) # Streaming stream = openai.ChatCompletion.create(model=" stream=True) per chunk in stream: if chunk.choices[0].delta.content no és None: print(chunk.choices[0].delta.content, end="") # Function calling (definició d'eines) tools = "{name": current weather", "parameters": { "type": "object", "properties": { "location": {"type": "string"} }, "required": [ "location" ] } } } ]

Per sortides a JSON estricte, estableix response_format a {«type»: «json_object»}. I si mantindràs diàlegs llargs, recorda anar acotant context per mantenir-te dins dels límits i maximitzar eficiència.

Integració amb Apidog

Apidog accelera la prototipació de trucades: importa especificacions, guarda variables d'entorn (com la clau), construeix POSTs i prova al vol. El seu simulador de respostes facilita testejar casos extrems sense cost de fitxes.

També genera fragments de codi en diferents llenguatges i ofereix una vista de línia de temps per depurar autenticació o paràmetres. Atès que V3.2-Exp maneja contextos amplis, Apidog et ve de perles per experimentar amb prompts llargs i veure rendiment.

Bones pràctiques per treure'n partit

Defineix prompts de sistema clars i breus que delimiten el comportament. Per a problemes complexos, el mode raonador pot ajudar, combinant-ho amb tècniques destructura de pensament de forma adequada al teu cas.

Gestiona el context amb cap: encara que V3.2-Exp tolera long-context (se citen casos de fins a 128K), un historial excessiu pot penalitzar eficiència. Implementa truncat intel·ligent, ocult per a consultes freqüents i batch on tingui sentit.

En seguretat, saneja entrades per evitar injeccions de prompt i registra interaccions per auditoria. Ajusta temperature i top_p segons el teu objectiu: valors baixos per a determinisme, alts per a creativitat.

Realitza proves A/B entre xat de recerca profunda y raonador-profund per escollir el mode òptim. I recorda la limitació de taxa per evitar sorpreses a la facturació.

Comparativa amb V3.1-Terminus

La introducció de DSA porta millores de latència que, en alguns escenaris, s'aproximen a 3× de velocitat sense sacrificar paritat general de qualitat. És una evolució centrada en la relació potència/eficiència més que en rècords de precisió.

Les petites pujades en coding i caigudes lleugeres en dominis humanístics reflecteixen l'ajust fi propi d'un model que, per disseny, és experimental. L'endpoint temporal de V3.1 permet comparacions directes que mostrin els guanys de la DSA en context llarg.

Implementació local avançada

Per a desplegaments sensibles a la privadesa o sense connexió, descarregar els pesos des de Hugging Face i utilitzar els scripts de conversió oficials és el camí. Configura el nombre d'experts (per exemple, 256) i ajusta el paral·lelisme de model als teus GPUs.

La demo d'inferència permet testejar en mode interactiu, i els kernels a TileLang o CUDA t'ajudaran a esprémer rendiment segons prioritats: rapidesa de prototipat o màxim throughput en producció.

Kernels oberts i rendiment

TileLang prioritza llegibilitat i disseny per a investigació, de manera que puguis iterar amb agilitat en noves idees. És perfecte si voleu explorar variants d'atenció dispersa u optimitzacions de memòria.

Per esprémer cada mil·lisegon, els kernels de CUDA entren en joc: els índexs de logits (amb versions paginades) estan en DeepGEMM, mentre que els d'atenció dispersa viuen a FlashMLA. Aquesta segmentació permet a cada equip triar el apilar òptim sense refer feina.

Llicència de DeepSeek-V3.2-Exp, cita i contacte

El repositori i els pesos del model es publiquen sota llicència MIT. Això obre la porta a usos comercials amb gran flexibilitat, fomentant adopció i innovació a l'ecosistema.

Per referenciar V3.2-Exp en treballs, DeepSeek proporciona una entrada de cita de tipus @misc amb el títol "DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention" i autoria "DeepSeek-AI" (any 2025). Davant dubtes o incidències, el correu de contacte és service@deepseek.com.

Recursos oficials i enllaços útils sobre DeepSeek-V3.2-Exp

Si vols baixar el model, el tens a Cara abraçada. L'informe tècnic es troba a GitHub, juntament amb detalls d'implementació i avaluacions.

Per a proves de comparació entre V3.2-Exp i V3.1-Terminus, consulta la guia oficial. I si vols enviar suggeriments, tens un canal de feedback públic a https://feedback.deepseek.com/dsa.

Amb V3.2-Exp, DeepSeek prioritza una idea senzilla: eficiència sense renunciar a qualitat. DSA marca el rumb per a models que suportin contextos gegants a cost raonable, l'API rebaixada apropa aquestes capacitats a més equips, i l'obertura de l'stack (pesos, kernels i documentació) facilita que la comunitat investigui, compari i construeixi productes reals sense fricció.