夜夜揉揉日日人人青青,偷窥精品在线视频,精品妇女一区二区三区,a√天堂98国产在线

<span id="lndpy"></span>
  • <small id="lndpy"><del id="lndpy"><rt id="lndpy"></rt></del></small><dfn id="lndpy"></dfn>
    <bdo id="lndpy"><delect id="lndpy"><legend id="lndpy"></legend></delect></bdo>
  • <address id="lndpy"><ul id="lndpy"><strike id="lndpy"></strike></ul></address>
    解碼DeepSeek創(chuàng)新之道:三代模型演進路線圖

    解碼DeepSeek創(chuàng)新之道:三代模型演進路線圖

    linjunyuan 2025-03-28 骨科???/a> 9 次瀏覽 0個評論

    DeepSeek R1是AI領(lǐng)域里程碑創(chuàng)新。
    作者?|??喬楠
    從整體上看,DeepSeek演進了三代模型:
    DeepSeek-LLM(V1)完善了全棧框架,主要follow LLaMA;
    DeepSeek V2完善了DeepSeek整個創(chuàng)新的模型架構(gòu),包括MLA和DeepSeekMoE,以及后訓(xùn)練RL采用的GRPO;
    DeepSeek V3在V2模型架構(gòu)的基礎(chǔ)上,解決了如何通過全棧協(xié)同訓(xùn)練更大規(guī)模的MoE模型,模型能力達到頭部大模型水平;
    DeepSeek R1是AI領(lǐng)域里程碑創(chuàng)新,Aha Moment為下一代智能指出了一條路徑。
    文章來源:黃大年茶思屋科技網(wǎng)站

    01.
    DeepSeek-LLM (V1)


    1. 高質(zhì)量數(shù)據(jù)的構(gòu)建:構(gòu)建了一個包含約2萬億tokens的多語言數(shù)據(jù)集,主要涵蓋中文和英文。通過數(shù)據(jù)去重、過濾和重混(remixing)三個階段,確保數(shù)據(jù)多樣性和高質(zhì)量。
    2. 模型架構(gòu)借鑒LLaMA:模型在總體上借鑒了LLaMA的設(shè)計,但在細節(jié)上進行了調(diào)整。例如,7B模型采用30層網(wǎng)絡(luò),而67B模型采用95層網(wǎng)絡(luò),同時在部分模塊(如注意力機制中采用了Grouped-Query Attention以降低推理成本)上有所不同。
    3. 超參數(shù)設(shè)置:討論了批次大小和學(xué)習(xí)率與模型規(guī)模之間的關(guān)系,并提出了基于大規(guī)模實驗的多步學(xué)習(xí)率衰減策略。與傳統(tǒng)的余弦調(diào)度器相比,這種策略不僅能保證性能,還方便模型的持續(xù)訓(xùn)練。
    4. Scaling Laws研究:重新審視了模型規(guī)模和數(shù)據(jù)規(guī)模的擴展定律,提出了基于“非嵌入FLOPs/token”的新模型規(guī)模表示方法,并通過IsoFLOP分析得出最優(yōu)的模型與數(shù)據(jù)擴展分配策略。發(fā)現(xiàn)不同數(shù)據(jù)集之間的質(zhì)量差異會對擴展定律產(chǎn)生明顯影響,高質(zhì)量數(shù)據(jù)更有助于訓(xùn)練更大規(guī)模的模型。
    5. 自研完善基礎(chǔ)infrastructure:基于HAI-LLM的輕量級訓(xùn)練框架,集成了數(shù)據(jù)并行、張量并行、序列并行和流水線并行等多種技術(shù),并利用Flash Attention和ZeRO-1技術(shù)進一步提升硬件利用率和訓(xùn)練效率。
    6. 完善了pretraining和alignment(SFT+DPO)策略,證明SFT和DPO提升模型性能都是有效的。
    7. 完善evaluation數(shù)據(jù)和框架,構(gòu)建并強化了safety evaluation整體策略。
    整體來講,DeepSeek V1搭建了大模型的全棧技術(shù)框架,主要以解決開源工作為主,模型架構(gòu)創(chuàng)新很少,infrastructure層自研創(chuàng)新很多,完善了大模型架構(gòu)設(shè)計策略,超參數(shù)策略,alignment及evaluation。

    02.
    DeepSeekMath


    1. 數(shù)學(xué)領(lǐng)域大規(guī)模預(yù)訓(xùn)練語料的構(gòu)建策略:提出了一套迭代式數(shù)據(jù)采集流程,用于從Common Crawl中提取數(shù)學(xué)相關(guān)內(nèi)容。利用OpenWebMath作為種子數(shù)據(jù),首先使用fastText分類器進行初步篩選,再通過域劃分和人工標注擴充種子數(shù)據(jù),從而不斷優(yōu)化分類器,最終構(gòu)建出包含約120B數(shù)學(xué)tokens的DeepSeekMath Corpus。與現(xiàn)有數(shù)學(xué)預(yù)訓(xùn)練語料(如MathPile、OpenWebMath、Proof-Pile-2)相比,該語料庫規(guī)模更大、質(zhì)量更高,并且具有多語言(主要是英語和中文)覆蓋能力。
    2. 預(yù)訓(xùn)練模型策略:基于選用DeepSeek-Coder-Base-v1.5 7B作為預(yù)訓(xùn)練起點,證明先進行代碼預(yù)訓(xùn)練可以顯著提升模型的數(shù)學(xué)推理能力。實驗結(jié)果顯示,在數(shù)學(xué)預(yù)訓(xùn)練后,即使模型參數(shù)量較?。?B),其數(shù)學(xué)問題解決能力已接近甚至超越某些大規(guī)模閉源模型(如Minerva 540B)。
    3. 創(chuàng)新的強化學(xué)習(xí)算法GRPO(重要原創(chuàng)創(chuàng)新):Group Relative Policy Optimization (GRPO) 作為Proximal Policy Optimization (PPO) 的變體,取消了對critic模型的依賴,而是通過“組內(nèi)評分”來估計基線,從而大幅降低了訓(xùn)練時的內(nèi)存消耗和計算資源。該方法在數(shù)學(xué)指令調(diào)優(yōu)階段得到了顯著提升,在同一數(shù)據(jù)條件下,通過GRPO進一步提高了模型在各類數(shù)學(xué)基準(如GSM8K、MATH以及其他外域數(shù)學(xué)任務(wù))的表現(xiàn)。
    4. 同時討論了Rejection Sampling Fine-Tuning (RFT)、Direct Preference Optimization (DPO)和PPO等方法歸納為直接或簡化的強化學(xué)習(xí)技術(shù),系統(tǒng)探討了在線與離線訓(xùn)練、結(jié)果與過程監(jiān)督以及單回合與迭代強化學(xué)習(xí)等關(guān)鍵因素,這為后續(xù)V3和R1的訓(xùn)練奠定了很強的理論和數(shù)據(jù)基礎(chǔ)。
    總結(jié),DeepSeekMath的探索為R1奠定了很強的理論和數(shù)據(jù)基礎(chǔ),關(guān)鍵原創(chuàng)創(chuàng)新有兩點
    1. 大規(guī)模高質(zhì)量數(shù)學(xué)語料構(gòu)建:通過精心設(shè)計的數(shù)據(jù)篩選流水線和多次迭代,構(gòu)建出遠超現(xiàn)有資源的120B tokens數(shù)學(xué)語料,為數(shù)學(xué)預(yù)訓(xùn)練奠定了堅實基礎(chǔ)。
    2. GRPO強化學(xué)習(xí)算法:提出了取消critic模型的GRPO,通過組內(nèi)評分來優(yōu)化訓(xùn)練,既提高了數(shù)學(xué)指令調(diào)優(yōu)階段的效率,又降低了內(nèi)存和計算資源的消耗,從而在數(shù)學(xué)基準上取得了領(lǐng)先表現(xiàn)。

    03.
    DeepSeek V2


    1. 高質(zhì)量數(shù)據(jù):DeepSeek V2繼續(xù)做了大量工作以構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù)提升到8.1T tokens。
    2.?提出了核心架構(gòu)創(chuàng)新MLA和DeepSeekMoE
    (1)Multi-head Latent Attention (MLA) 的發(fā)明核心是為了解決KV緩存瓶頸:MLA通過對Key與Value進行低秩聯(lián)合壓縮,將高維表示映射到一個較低維的潛在空間中,再在推理階段通過上投影恢復(fù)所需維度。這樣既能大幅減少存儲KV緩存所需的內(nèi)存,又能保留足夠的信息用于準確的注意力計算。采用MLA后,模型在保持甚至超過傳統(tǒng)MHA性能的同時,其KV緩存量顯著降低,從而大幅提升了推理效率,允許更大批量和更長序列的處理。
    (2)DeepSeekMoE架構(gòu)的發(fā)明核心在探索MoE的極限:現(xiàn)有的MoE架構(gòu)(如GShard)在專家劃分上往往較為粗粒度,容易導(dǎo)致知識冗余;同時,在專家選擇和負載均衡方面存在分布不均、通信開銷過高等問題,這些問題都會增加訓(xùn)練成本和不穩(wěn)定性。

    3.?引入DeepSeekMath的GRPO策略后,通過RL訓(xùn)練DeepSeek V2 Chat策略,證明模型性能得到有效提升。
    總結(jié),DeepSeek-V2通過在Transformer架構(gòu)中引入MLA和DeepSeekMoE兩項關(guān)鍵創(chuàng)新,有效解決了傳統(tǒng)模型在大規(guī)模預(yù)訓(xùn)練和長序列推理過程中面臨的內(nèi)存和計算瓶頸問題,同時在保證高性能的前提下實現(xiàn)了更經(jīng)濟、更高效的訓(xùn)練與推理。這兩個創(chuàng)新為后續(xù)V3和R1沿用。

    04.
    DeepSeek V3創(chuàng)新點?


    1. 數(shù)據(jù):持續(xù)構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù),提升到14.8T tokens。
    2. DeepSeek V3架構(gòu)沿用V2的MLA和DeepSeekMoE,又提出了兩個小的創(chuàng)新點用于提升模型性能:

    解碼DeepSeek創(chuàng)新之道:三代模型演進路線圖

    3. 提出一系列創(chuàng)新點,核心為了解決怎么在受限硬件上訓(xùn)練更大規(guī)模的MoE模型:

    4. 兩階段訓(xùn)練的上下文擴展策略:pre-traning后通過兩階段的訓(xùn)練策略將上下文擴展到128K。
    5.?后訓(xùn)練蒸餾DeepSeek-R1提升V3推理能力,經(jīng)過DeepSeek-R1蒸餾的數(shù)據(jù)能顯著提升模型在LiveCodeBench和MATH-500兩個基準測試中的Pass@1指標,知識蒸餾雖然能夠提升模型性能,但同時也會大幅增加平均響應(yīng)長度。
    6.?DeepSeek-V3可以作為生成式獎勵模型:


    05.
    R1創(chuàng)新點


    1. R1的目標是完全通過無標注的數(shù)據(jù)進行推理能力的訓(xùn)練,最終希望實現(xiàn)模型的自我進化。
    2. Reasoning領(lǐng)域里程碑R1-Zero:R1-Zero直接將強化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型,使得模型能夠使用思維鏈(CoT)來解決復(fù)雜問題,模型也展現(xiàn)了自我驗證、反思和生成長思維鏈等能力。這是業(yè)界首個公開研究證明了無需使用SFT,僅僅通過RL就可以顯著增強LLM的推理能力,是Reasoning領(lǐng)域的里程碑性工作。

    3. DeepSeek-R1:為了解決R1-Zero生成結(jié)果可讀性差和語言混合的問題,通過在冷啟動階段加入推理數(shù)據(jù)做SFT的方法訓(xùn)練了R1,解決了R1-Zero的問題。

    06.
    V3和R1的相互促進


    1. R1是基于V3-Base模型開發(fā)的。
    2. V3在post training環(huán)節(jié)使用了R1產(chǎn)生的高質(zhì)量推理數(shù)據(jù),顯著提升了V3模型的推理能力。
    3. V3在post training環(huán)節(jié)同樣使用了和R1一樣的RL策略,提升推理能力并對齊人類偏好。
    4. V3/R1的post training環(huán)節(jié)都使用了V3作為Reward model對非數(shù)學(xué)編程場景提供反饋。
    5. Distilling R1 for V3: Distilling R1可以提升V3的推理能力,但會影響到處理一般問題的能力,增加反應(yīng)長度,考慮到模型準確性和計算效率,V3主要蒸餾了R1的數(shù)學(xué)和編程能力。這個方向未來可探索空間很大,基模型和推理模型之間的邊界很淡,未來是否會融合,邁入下一層智能,值得期待。

    07.
    DeepSeek未來發(fā)展方向


    1.?持續(xù)優(yōu)化模型架構(gòu):繼續(xù)研究和改進模型架構(gòu),進一步提升訓(xùn)練和推理效率。未來目標之一是實現(xiàn)對無限上下文長度的高效支持,同時突破Transformer現(xiàn)有的架構(gòu)局限,推動模型表達能力的邊界。
    2.?提升訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量:持續(xù)迭代和擴充訓(xùn)練數(shù)據(jù),不僅要增加數(shù)據(jù)量,還要探索引入更多樣化的訓(xùn)練信號,從多個維度推動數(shù)據(jù)規(guī)模的提升,從而進一步提高模型性能和泛化能力。
    3.?增強深度思考能力:針對模型的深度推理和問題解決能力,將進一步研究如何擴展模型的推理長度和深度,以增強模型在復(fù)雜認知任務(wù)中的智能表現(xiàn)和問題求解能力。
    4.?開發(fā)多維度綜合評測方法:探索更加全面、多維度的模型評估方法,避免僅針對固定基準進行優(yōu)化,防止對模型能力產(chǎn)生誤導(dǎo)性的評估。通過多角度考量模型在各類任務(wù)和實際應(yīng)用中的表現(xiàn),確保對模型能力有更為準確和客觀的基礎(chǔ)性評估。


    (文:智東西)

    轉(zhuǎn)載請注明來自宜賓民心創(chuàng)傷骨科醫(yī)院有限責(zé)任公司,本文標題:《解碼DeepSeek創(chuàng)新之道:三代模型演進路線圖》

    百度分享代碼,如果開啟HTTPS請參考李洋個人博客
    每一天,每一秒,你所做的決定都會改變你的人生!
    Top
     最新版美團借錢  春雨直播最新版下載  感動中國最新的  壓鑄的最新投資  西安市房管局最新公告網(wǎng)  張金東最新信息  網(wǎng)紅表哥最新直播  宇宙沙盤中文最新版下載  最新美軍的部隊的軍銜  騎行學(xué)院官網(wǎng)最新  最新版的狼人  湖南新化最新紅網(wǎng)  修仙手游廣告最新版本  我說的是最新電視劇英文  唯美蜂蜜牧場最新版  最新得病的演員  凱美瑞黑色最新版  勞斯萊斯最新版金色  印度的最新電影  最新版彩樂園  鏟子套路最新版  豹紋圍脖最新版  最新的爬蟲文獻  建甌最新逮捕名單查詢網(wǎng)  鳳凰衛(wèi)視最新版  國際藥典最新版在線  最新的孩子失蹤的電影  最新的樓梯門  蝦花花最新版