DeepSeek R1是AI領(lǐng)域里程碑創(chuàng)新。
作者?|??喬楠
從整體上看,DeepSeek演進了三代模型:
DeepSeek-LLM(V1)完善了全棧框架,主要follow LLaMA;
DeepSeek V2完善了DeepSeek整個創(chuàng)新的模型架構(gòu),包括MLA和DeepSeekMoE,以及后訓(xùn)練RL采用的GRPO;
DeepSeek V3在V2模型架構(gòu)的基礎(chǔ)上,解決了如何通過全棧協(xié)同訓(xùn)練更大規(guī)模的MoE模型,模型能力達到頭部大模型水平;
DeepSeek R1是AI領(lǐng)域里程碑創(chuàng)新,Aha Moment為下一代智能指出了一條路徑。
文章來源:黃大年茶思屋科技網(wǎng)站
01.
DeepSeek-LLM (V1)
1. 高質(zhì)量數(shù)據(jù)的構(gòu)建:構(gòu)建了一個包含約2萬億tokens的多語言數(shù)據(jù)集,主要涵蓋中文和英文。通過數(shù)據(jù)去重、過濾和重混(remixing)三個階段,確保數(shù)據(jù)多樣性和高質(zhì)量。
2. 模型架構(gòu)借鑒LLaMA:模型在總體上借鑒了LLaMA的設(shè)計,但在細節(jié)上進行了調(diào)整。例如,7B模型采用30層網(wǎng)絡(luò),而67B模型采用95層網(wǎng)絡(luò),同時在部分模塊(如注意力機制中采用了Grouped-Query Attention以降低推理成本)上有所不同。
3. 超參數(shù)設(shè)置:討論了批次大小和學(xué)習(xí)率與模型規(guī)模之間的關(guān)系,并提出了基于大規(guī)模實驗的多步學(xué)習(xí)率衰減策略。與傳統(tǒng)的余弦調(diào)度器相比,這種策略不僅能保證性能,還方便模型的持續(xù)訓(xùn)練。
4. Scaling Laws研究:重新審視了模型規(guī)模和數(shù)據(jù)規(guī)模的擴展定律,提出了基于“非嵌入FLOPs/token”的新模型規(guī)模表示方法,并通過IsoFLOP分析得出最優(yōu)的模型與數(shù)據(jù)擴展分配策略。發(fā)現(xiàn)不同數(shù)據(jù)集之間的質(zhì)量差異會對擴展定律產(chǎn)生明顯影響,高質(zhì)量數(shù)據(jù)更有助于訓(xùn)練更大規(guī)模的模型。
5. 自研完善基礎(chǔ)infrastructure:基于HAI-LLM的輕量級訓(xùn)練框架,集成了數(shù)據(jù)并行、張量并行、序列并行和流水線并行等多種技術(shù),并利用Flash Attention和ZeRO-1技術(shù)進一步提升硬件利用率和訓(xùn)練效率。
6. 完善了pretraining和alignment(SFT+DPO)策略,證明SFT和DPO提升模型性能都是有效的。
7. 完善evaluation數(shù)據(jù)和框架,構(gòu)建并強化了safety evaluation整體策略。
整體來講,DeepSeek V1搭建了大模型的全棧技術(shù)框架,主要以解決開源工作為主,模型架構(gòu)創(chuàng)新很少,infrastructure層自研創(chuàng)新很多,完善了大模型架構(gòu)設(shè)計策略,超參數(shù)策略,alignment及evaluation。
02.
DeepSeekMath
1. 數(shù)學(xué)領(lǐng)域大規(guī)模預(yù)訓(xùn)練語料的構(gòu)建策略:提出了一套迭代式數(shù)據(jù)采集流程,用于從Common Crawl中提取數(shù)學(xué)相關(guān)內(nèi)容。利用OpenWebMath作為種子數(shù)據(jù),首先使用fastText分類器進行初步篩選,再通過域劃分和人工標注擴充種子數(shù)據(jù),從而不斷優(yōu)化分類器,最終構(gòu)建出包含約120B數(shù)學(xué)tokens的DeepSeekMath Corpus。與現(xiàn)有數(shù)學(xué)預(yù)訓(xùn)練語料(如MathPile、OpenWebMath、Proof-Pile-2)相比,該語料庫規(guī)模更大、質(zhì)量更高,并且具有多語言(主要是英語和中文)覆蓋能力。
2. 預(yù)訓(xùn)練模型策略:基于選用DeepSeek-Coder-Base-v1.5 7B作為預(yù)訓(xùn)練起點,證明先進行代碼預(yù)訓(xùn)練可以顯著提升模型的數(shù)學(xué)推理能力。實驗結(jié)果顯示,在數(shù)學(xué)預(yù)訓(xùn)練后,即使模型參數(shù)量較?。?B),其數(shù)學(xué)問題解決能力已接近甚至超越某些大規(guī)模閉源模型(如Minerva 540B)。
3. 創(chuàng)新的強化學(xué)習(xí)算法GRPO(重要原創(chuàng)創(chuàng)新):Group Relative Policy Optimization (GRPO) 作為Proximal Policy Optimization (PPO) 的變體,取消了對critic模型的依賴,而是通過“組內(nèi)評分”來估計基線,從而大幅降低了訓(xùn)練時的內(nèi)存消耗和計算資源。該方法在數(shù)學(xué)指令調(diào)優(yōu)階段得到了顯著提升,在同一數(shù)據(jù)條件下,通過GRPO進一步提高了模型在各類數(shù)學(xué)基準(如GSM8K、MATH以及其他外域數(shù)學(xué)任務(wù))的表現(xiàn)。
4. 同時討論了Rejection Sampling Fine-Tuning (RFT)、Direct Preference Optimization (DPO)和PPO等方法歸納為直接或簡化的強化學(xué)習(xí)技術(shù),系統(tǒng)探討了在線與離線訓(xùn)練、結(jié)果與過程監(jiān)督以及單回合與迭代強化學(xué)習(xí)等關(guān)鍵因素,這為后續(xù)V3和R1的訓(xùn)練奠定了很強的理論和數(shù)據(jù)基礎(chǔ)。
總結(jié),DeepSeekMath的探索為R1奠定了很強的理論和數(shù)據(jù)基礎(chǔ),關(guān)鍵原創(chuàng)創(chuàng)新有兩點:
1. 大規(guī)模高質(zhì)量數(shù)學(xué)語料構(gòu)建:通過精心設(shè)計的數(shù)據(jù)篩選流水線和多次迭代,構(gòu)建出遠超現(xiàn)有資源的120B tokens數(shù)學(xué)語料,為數(shù)學(xué)預(yù)訓(xùn)練奠定了堅實基礎(chǔ)。
2. GRPO強化學(xué)習(xí)算法:提出了取消critic模型的GRPO,通過組內(nèi)評分來優(yōu)化訓(xùn)練,既提高了數(shù)學(xué)指令調(diào)優(yōu)階段的效率,又降低了內(nèi)存和計算資源的消耗,從而在數(shù)學(xué)基準上取得了領(lǐng)先表現(xiàn)。
03.
DeepSeek V2
1. 高質(zhì)量數(shù)據(jù):DeepSeek V2繼續(xù)做了大量工作以構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù)提升到8.1T tokens。
2.?提出了核心架構(gòu)創(chuàng)新MLA和DeepSeekMoE
(1)Multi-head Latent Attention (MLA) 的發(fā)明核心是為了解決KV緩存瓶頸:MLA通過對Key與Value進行低秩聯(lián)合壓縮,將高維表示映射到一個較低維的潛在空間中,再在推理階段通過上投影恢復(fù)所需維度。這樣既能大幅減少存儲KV緩存所需的內(nèi)存,又能保留足夠的信息用于準確的注意力計算。采用MLA后,模型在保持甚至超過傳統(tǒng)MHA性能的同時,其KV緩存量顯著降低,從而大幅提升了推理效率,允許更大批量和更長序列的處理。
(2)DeepSeekMoE架構(gòu)的發(fā)明核心在探索MoE的極限:現(xiàn)有的MoE架構(gòu)(如GShard)在專家劃分上往往較為粗粒度,容易導(dǎo)致知識冗余;同時,在專家選擇和負載均衡方面存在分布不均、通信開銷過高等問題,這些問題都會增加訓(xùn)練成本和不穩(wěn)定性。
3.?引入DeepSeekMath的GRPO策略后,通過RL訓(xùn)練DeepSeek V2 Chat策略,證明模型性能得到有效提升。
總結(jié),DeepSeek-V2通過在Transformer架構(gòu)中引入MLA和DeepSeekMoE兩項關(guān)鍵創(chuàng)新,有效解決了傳統(tǒng)模型在大規(guī)模預(yù)訓(xùn)練和長序列推理過程中面臨的內(nèi)存和計算瓶頸問題,同時在保證高性能的前提下實現(xiàn)了更經(jīng)濟、更高效的訓(xùn)練與推理。這兩個創(chuàng)新為后續(xù)V3和R1沿用。
04.
DeepSeek V3創(chuàng)新點
1. 數(shù)據(jù):持續(xù)構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù),提升到14.8T tokens。
2. DeepSeek V3架構(gòu)沿用V2的MLA和DeepSeekMoE,又提出了兩個小的創(chuàng)新點用于提升模型性能:
3. 提出一系列創(chuàng)新點,核心為了解決怎么在受限硬件上訓(xùn)練更大規(guī)模的MoE模型:
4. 兩階段訓(xùn)練的上下文擴展策略:pre-traning后通過兩階段的訓(xùn)練策略將上下文擴展到128K。
5.?后訓(xùn)練蒸餾DeepSeek-R1提升V3推理能力,經(jīng)過DeepSeek-R1蒸餾的數(shù)據(jù)能顯著提升模型在LiveCodeBench和MATH-500兩個基準測試中的Pass@1指標,知識蒸餾雖然能夠提升模型性能,但同時也會大幅增加平均響應(yīng)長度。
6.?DeepSeek-V3可以作為生成式獎勵模型:
05.
R1創(chuàng)新點
1. R1的目標是完全通過無標注的數(shù)據(jù)進行推理能力的訓(xùn)練,最終希望實現(xiàn)模型的自我進化。
2. Reasoning領(lǐng)域里程碑R1-Zero:R1-Zero直接將強化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型,使得模型能夠使用思維鏈(CoT)來解決復(fù)雜問題,模型也展現(xiàn)了自我驗證、反思和生成長思維鏈等能力。這是業(yè)界首個公開研究證明了無需使用SFT,僅僅通過RL就可以顯著增強LLM的推理能力,是Reasoning領(lǐng)域的里程碑性工作。
3. DeepSeek-R1:為了解決R1-Zero生成結(jié)果可讀性差和語言混合的問題,通過在冷啟動階段加入推理數(shù)據(jù)做SFT的方法訓(xùn)練了R1,解決了R1-Zero的問題。
06.
V3和R1的相互促進
1. R1是基于V3-Base模型開發(fā)的。
2. V3在post training環(huán)節(jié)使用了R1產(chǎn)生的高質(zhì)量推理數(shù)據(jù),顯著提升了V3模型的推理能力。
3. V3在post training環(huán)節(jié)同樣使用了和R1一樣的RL策略,提升推理能力并對齊人類偏好。
4. V3/R1的post training環(huán)節(jié)都使用了V3作為Reward model對非數(shù)學(xué)編程場景提供反饋。
5. Distilling R1 for V3: Distilling R1可以提升V3的推理能力,但會影響到處理一般問題的能力,增加反應(yīng)長度,考慮到模型準確性和計算效率,V3主要蒸餾了R1的數(shù)學(xué)和編程能力。這個方向未來可探索空間很大,基模型和推理模型之間的邊界很淡,未來是否會融合,邁入下一層智能,值得期待。
07.
DeepSeek未來發(fā)展方向
1.?持續(xù)優(yōu)化模型架構(gòu):繼續(xù)研究和改進模型架構(gòu),進一步提升訓(xùn)練和推理效率。未來目標之一是實現(xiàn)對無限上下文長度的高效支持,同時突破Transformer現(xiàn)有的架構(gòu)局限,推動模型表達能力的邊界。
2.?提升訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量:持續(xù)迭代和擴充訓(xùn)練數(shù)據(jù),不僅要增加數(shù)據(jù)量,還要探索引入更多樣化的訓(xùn)練信號,從多個維度推動數(shù)據(jù)規(guī)模的提升,從而進一步提高模型性能和泛化能力。
3.?增強深度思考能力:針對模型的深度推理和問題解決能力,將進一步研究如何擴展模型的推理長度和深度,以增強模型在復(fù)雜認知任務(wù)中的智能表現(xiàn)和問題求解能力。
4.?開發(fā)多維度綜合評測方法:探索更加全面、多維度的模型評估方法,避免僅針對固定基準進行優(yōu)化,防止對模型能力產(chǎn)生誤導(dǎo)性的評估。通過多角度考量模型在各類任務(wù)和實際應(yīng)用中的表現(xiàn),確保對模型能力有更為準確和客觀的基礎(chǔ)性評估。
(文:智東西)