剛剛！DeepSeek，硬核發(fā)布！

liuguanliang 2025-03-04 醫(yī)療服務(wù) 5 次瀏覽 0個(gè)評論

DeepSeek又有大動(dòng)作！

開源周第三天，DeepSeek宣布開源Optimized Parallelism Strategies（優(yōu)化并行策略）。

Optimized Parallelism Strategies，該策略是為了提高計(jì)算效率、減少資源浪費(fèi)并最大化系統(tǒng)性能而設(shè)計(jì)的并行計(jì)算方案。這些策略通過合理分配任務(wù)、協(xié)調(diào)資源利用和減少通信開銷，實(shí)現(xiàn)在多核、分布式或異構(gòu)系統(tǒng)中的高效并行執(zhí)行。

與此同時(shí)，英偉達(dá)開源了首個(gè)在Blackwell架構(gòu)上優(yōu)化的DeepSeek-R1，實(shí)現(xiàn)了推理速度提升25倍，并且每token成本降低20倍的驚人成果。這一新模型的推出，標(biāo)志著英偉達(dá)在人工智能領(lǐng)域的又一次重大進(jìn)展。

動(dòng)作不斷

DeepSeek開源周第四天，今天早上，該公司再度開源優(yōu)化并行策略，包括DualPipe、專家并行負(fù)載均衡器 (EPLB)、DeepSeek Infra 中的性能分析數(shù)據(jù)。優(yōu)化并行策略需根據(jù)任務(wù)類型、數(shù)據(jù)規(guī)模、硬件環(huán)境靈活選擇，平衡計(jì)算、通信和存儲(chǔ)開銷，最終實(shí)現(xiàn)高效、可擴(kuò)展的并行計(jì)算。該策略是為了提高計(jì)算效率、減少資源浪費(fèi)并最大化系統(tǒng)性能而設(shè)計(jì)的并行計(jì)算方案。

最近，DeepSeek硬核不斷。此前，該公司宣布將DeepEP向公眾開放。在宣布后的約20分鐘內(nèi)，DeepEP已在 GitHub、微軟（MSFT.US）等平臺(tái)上獲得超過1000個(gè) Star收藏。

據(jù)悉，DeepEP是MoE模型訓(xùn)練和推理的Expert Parallelism通信基礎(chǔ)，可實(shí)現(xiàn)高效優(yōu)化的全到全通信，以支持包括FP8在內(nèi)的低精度計(jì)算，適用于現(xiàn)代高性能計(jì)算。DeepEP還針對從NVLink到RDMA的非對稱帶寬轉(zhuǎn)發(fā)場景進(jìn)行了深度優(yōu)化，不僅提供高吞吐量，還支持流式多處理器數(shù)量控制，從而在訓(xùn)練和推理任務(wù)中實(shí)現(xiàn)高吞吐量性能。

此外，2月26日，DeepSeek宣布即日起在北京時(shí)間每日00:30至08:30的夜間空閑時(shí)段，大幅下調(diào)API調(diào)用價(jià)格，其中DeepSeek-V3降至原價(jià)的50%，DeepSeek-R1更是低至25%，降幅最高達(dá)75%。該公司稱，這一舉措旨在鼓勵(lì)用戶充分利用夜間時(shí)段，享受更經(jīng)濟(jì)、更流暢的服務(wù)體驗(yàn)。

英偉達(dá)亦借機(jī)突破

近日，英偉達(dá)開源了首個(gè)在Blackwell架構(gòu)上優(yōu)化的DeepSeek-R1，實(shí)現(xiàn)了推理速度提升25倍，并且每token成本降低20倍的驚人成果。這一新模型的推出，標(biāo)志著英偉達(dá)在人工智能領(lǐng)域的又一次重大進(jìn)展。

根據(jù)媒體報(bào)道，DeepSeek-R1的本地化部署已經(jīng)引起廣泛關(guān)注，英偉達(dá)也親自下場，開源了基于Blackwell架構(gòu)的優(yōu)化方案——DeepSeek-R1-FP4。這一新模型在推理吞吐量上達(dá)到了高達(dá)21,088 token每秒，與H100的844 token每秒相比，提升幅度高達(dá)25倍。同時(shí)，每token的成本也實(shí)現(xiàn)了20倍的降低。

英偉達(dá)通過在Blackwell架構(gòu)上應(yīng)用TensorRT DeepSeek優(yōu)化，讓具有FP4生產(chǎn)級精度的模型，在MMLU通用智能基準(zhǔn)測試中達(dá)到了FP8 模型性能的99.8%。目前，英偉達(dá)基于FP4優(yōu)化的DeepSeek-R1檢查點(diǎn)已經(jīng)在Hugging Face上開源，并且可以通過以下鏈接訪問模型地址：DeepSeek-R1-FP4。

在后訓(xùn)練量化方面，該模型將Transformer模塊內(nèi)的線性算子的權(quán)重和激活量化到了FP4，適用于TensorRT-LLM推理。這一優(yōu)化使每個(gè)參數(shù)的位數(shù)從8位減少到4位，從而讓磁碟空間和GPU顯存的需求減少了約1.6倍。

使用TensorRT-LLM部署量化后的FP4權(quán)重文件，能夠?yàn)榻o定的提示生成文本響應(yīng)，這需要支持TensorRT-LLM的英達(dá)GPU（如 B200），并且需要8個(gè)GPU來實(shí)現(xiàn)tensor_parallel_size=8的張量并行。這段代碼利用FP4量化、TensorRT引擎和并行計(jì)算，旨在實(shí)現(xiàn)高效、低成本的推理，適合生產(chǎn)環(huán)境或高吞吐量應(yīng)用。

據(jù)報(bào)道，針對此次優(yōu)化的成果，網(wǎng)友們表示驚嘆，稱「FP4 魔法讓 AI 未來依然敏銳！」有網(wǎng)友評論道，這次的優(yōu)化使得美國供應(yīng)商能夠以每百萬token 0.25美元的價(jià)格提供R1，并認(rèn)為「還會(huì)有利潤」。

如今，DeepSeek的開源活動(dòng)持續(xù)進(jìn)行。周一，DeepSeek 開源了 FlashMLA，這是專為英偉達(dá)Hopper GPU打造的高效MLA譯碼內(nèi)核，特別針對變長序列進(jìn)行了優(yōu)化。周二則推出了DeepEP，這是一個(gè)為混合專家系統(tǒng)（MoE）和專家并行（EP）設(shè)計(jì)的通信庫。周三開源的是 DeepGEMM，這是一個(gè)支持稠密和 MoE 模型的 FP8 GEMM 計(jì)算庫，為 V3/R1 的訓(xùn)練和推理提供強(qiáng)大支持。

總體而言，無論是英偉達(dá)開源的 DeepSeek-R1-FP4，還是 DeepSeek 開源的其他三個(gè)倉庫，都是通過對輝達(dá) GPU 和集群的優(yōu)化，來推動(dòng) AI 模型的高效計(jì)算和部署。

轉(zhuǎn)載請注明來自宜賓民心創(chuàng)傷骨科醫(yī)院有限責(zé)任公司，本文標(biāo)題：《剛剛！DeepSeek，硬核發(fā)布！》

liuguanliang 606篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會(huì)改變你的人生！

? 2025年3月 ?
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

友情鏈接

骨科?？?/a>
醫(yī)療服務(wù)
醫(yī)療康復(fù)
常見疾病
疾病百科
衛(wèi)生健康
記錄生活
分享時(shí)光
數(shù)字技術(shù)
通知短信
除醛功能
凈味噴劑
胡蘿卜素
食品原料
電力科技
電氣設(shè)備
上海硅PU球場
上海環(huán)氧地坪

夜夜揉揉日日人人青青,偷窥精品在线视频,精品妇女一区二区三区,a√天堂98国产在线

admin_qifei管理員

最新文章

網(wǎng)站收藏

剛剛！DeepSeek，硬核發(fā)布！

最近發(fā)表

友情鏈接

文章目錄

夜夜揉揉日日人人青青,偷窥精品在线视频,精品妇女一区二区三区,a√天堂98国产在线

admin_qifei管理員

最新文章

網(wǎng)站收藏

剛剛！DeepSeek，硬核發(fā)布！

2025新澳天天彩資料大全最新版本;實(shí)地調(diào)研解釋定義

澳門今晚開特馬+開獎(jiǎng)結(jié)果課優(yōu)勢;定量解答解釋定義

三門峽黃河文化旅游的開發(fā)·即時(shí)要訊，三門峽黃河文化旅游開發(fā)新動(dòng)態(tài)，聚焦文旅融合新篇章

2025精準(zhǔn)資料免費(fèi)解答;前沿解答解釋定義

反擊美國政府！大量美國網(wǎng)民涌入中國社交APP

7777788888新版跑狗圖解析;全面解答解析實(shí)施

2025澳門正版免費(fèi)資本;實(shí)地?cái)?shù)據(jù)驗(yàn)證設(shè)計(jì)

新澳2025今晚特馬開獎(jiǎng),典解版新正實(shí)-新版;穩(wěn)定性策略解析

最近發(fā)表

友情鏈接

文章目錄

剛剛！DeepSeek，硬核發(fā)布！

三門峽黃河文化旅游的開發(fā)·即時(shí)要訊，三門峽黃河文化旅游開發(fā)新動(dòng)態(tài)，聚焦文旅融合新篇章

反擊美國政府！大量美國網(wǎng)民涌入中國社交APP