智東西
作者 | 李水青
編輯 | 心緣
智東西6月27日報道論文,繼完成500億元融資後,今日,DeepSeek首次放出開源新成果!
剛剛,DeepSeek開源了一套讓現有模型跑得更快的工程方案:推出DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark模型,並開源推測解碼(Speculative Decoding)框架DSpark以及推測解碼訓練框架DeepSpec論文。
▲DeepSeek-V4-Pro-DSpark開源上新頁面截圖
根據同步上傳的梁文鋒署名、聯合北京大學完成的論文《DSpark:基於半自迴歸生成的置信度排程推測解碼(DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation)》,將DSpark部署在DeepSeek-V4線上服務系統、承接真實使用者流量時,它有效減少了無效校驗帶來的算力浪費論文。
展開全文
相較於成熟的生產基線方案(MTP-1),在保持整體吞吐不變的前提下,DSpark把單使用者生成速度提升60%-85%論文。更關鍵的是,在嚴格互動時延約束下,DSpark避免了吞吐率大幅滑坡,實現了以往無法達成的效能檔位,推高了整套服務系統的帕累托最優邊界。
▲DSpark論文截圖
Hugging Face地址論文:
GitHub地址論文:
論文地址論文:
根據Hugging Face上的模型卡,DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark並非新模型,而是在原有版本的基礎上,增加了一個推測解碼模組,用以加快推理速度、降低成本論文。
推測解碼,簡單來說,是一種大模型推理無損技術,核心流程為先打草稿、後驗證論文。其將草稿生成與目標模型校驗解耦,以此加速大語言模型推理。
當前主流並行草稿器能夠單次前向運算生成超長token序列,但由於token之間缺少依賴關係,草稿後續內容的透過率會快速下滑論文。此外,如果對整段長候選序列無差別校驗,會把寶貴的批次算力浪費在極易被駁回的token上,從而導致高併發服務場景下整體吞吐率大幅下降。
為此,DeepSeek提出DSpark推測解碼框架,把高吞吐並行生成與自適應、感知負載的校驗機制結合在一起論文。為保證草稿質量,DSpark採用半自迴歸架構:將並行主幹網路與輕量序列模組相結合,建模組內token依賴,緩解末尾內容透過率衰減問題。
▲DSpark架構與解碼流程
為最佳化系統執行效率,DSpark引入置信度排程校驗機制:根據預估的字首透過機率與引擎吞吐特徵,為每一條請求動態調整校驗長度論文。在多領域離線基準測試中,相比當前最優的自迴歸草稿器與並行草稿器,DSpark能夠顯著提升有效透過序列長度。
如下圖所示,針對這DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark兩款模型,DeepSeek提供了一個最小推理示例論文。
▲DeepSeek提供的最小推理示例
總的來說,使用者在部署DSpark版本的DeepSeek-V4模型後,有望在生成速度、首token延遲、併發能力等方面獲得體驗提升論文。
再來看看DeepSpec,這是一個用於訓練和評估推測性解碼草稿模型(Draft Model)的全棧程式碼庫,或者說工具鏈,它包含資料準備工具、草稿模型實現、訓練程式碼和評估指令碼,支援MIT許可論文。
▲DeepSpec開源上新頁面截圖
DeepSpec的工作流程如下論文,它會按順序執行各個階段,每個階段的輸出為下一個階段提供反饋:
1、資料準備:下載提示,重新生成目標答案,並構建目標快取論文。
2、訓練:針對快取的目標輸出訓練一個模型論文。
3、評估:在基準任務上衡量推測解碼的接受程度論文。
目前,DeepSpec支援的演算法包括三個草稿模型:DSpark、DFlash和Eagle3論文。
DeepSpec團隊還在最後向SpecForge(Apache-2.0)、DFlash(MIT)以及Qwen3和Gemma發文致謝論文。
▲DeepSeek致謝情況
可以看到,DeepSeek不僅釋出相關模型,還開放完整的訓練框架,供開發者和企業用這套工具給自己的Qwen3、Gemma等模型訓練草稿模型論文。
結語:推理重要度提高論文,考驗工程化能力
DeepSeek本次釋出雖然低調,也不是新模型迭代,但實際含金量不低論文。DeepSeek釋出了一套讓現有模型跑得更快的工程方案,有望帶來更快更低成本的推理體驗,並降低推測解碼的落地門檻。
大模型競賽已進入訓練與推理並重的系統博弈階段論文。本次也是DeepSeek完成融資後,率先落子推理最佳化賽道。戰略意圖也很明確:不僅要加速模型迭代和產品化,還要向下搶佔算力效率競爭制高點。