本報(bào)記者 吳清 北京報(bào)道
近日,一家來(lái)自中國(guó)的公司Deepseek在全球AI界刷屏,其最新推出的大模型DeepSeek-V3,迅速在AI行業(yè)內(nèi)引發(fā)廣泛關(guān)注和熱議,主要原因就是預(yù)訓(xùn)練成本之低,其訓(xùn)練同樣性能的大模型成本僅是行業(yè)主流的十分之一左右。
與此同時(shí),相比其他主流大模型,DeepSeek-V3的性能卻足以比肩乃至更優(yōu)。DeepSeek官方微信公眾號(hào)稱,其在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
公開(kāi)信息顯示,Deepseek的中文名是“深度求索”,為量化巨頭幻方量化的子公司。作為一家隱形的AI巨頭,幻方目前擁有1萬(wàn)枚英偉達(dá)A100芯片,2023年4月幻方宣布成立新組織,集中資源和力量,探索AGI(通用人工智能)的本質(zhì),在一年多時(shí)間里進(jìn)展迅速。在硅谷,DeepSeek如今被稱作“來(lái)自東方的神秘力量”。
表現(xiàn)震驚AI圈
引發(fā)熱議背后的一個(gè)焦點(diǎn)是,預(yù)訓(xùn)練成本之低——這個(gè)參數(shù)量高達(dá)671B的大模型,在預(yù)訓(xùn)練階段僅使用2048塊GPU訓(xùn)練了2個(gè)月,且只花費(fèi)557.6萬(wàn)美元。其訓(xùn)練費(fèi)用相比GPT-4等大模型要少得多,據(jù)外媒估計(jì),Meta的大模型Llama-3.1的訓(xùn)練投資超過(guò)了5億美元。
OpenAI創(chuàng)始成員Karpathy對(duì)此感嘆:“DeepSeek-V3讓在有限算力預(yù)算上進(jìn)行模型預(yù)訓(xùn)練變得容易。DeepSeek-V3看起來(lái)比Llama-3-405B更強(qiáng),訓(xùn)練消耗的算力卻僅為后者的1/11?!?/p>
記者注意到,2024年5月,Deepseek發(fā)布的一款名為DeepSeek V2的開(kāi)源模型,因其令人震驚的性價(jià)比——推理成本被降到每百萬(wàn)token僅1塊錢,在AI界一躍成名。隨后,字節(jié)跳動(dòng)、阿里巴巴、騰訊、百度等紛紛跟進(jìn),打響中國(guó)大模型價(jià)格戰(zhàn)。僅僅過(guò)去半年多,Deepseek再度進(jìn)化。
在接受暗涌的采訪中,幻方量化和Deepseek創(chuàng)始人梁文鋒表示:“我們降價(jià)一方面是因?yàn)槲覀冊(cè)谔剿飨乱淮P偷慕Y(jié)構(gòu)中,成本先降下來(lái)了,另一方面也覺(jué)得無(wú)論API(應(yīng)用程序編程接口),還是AI,都應(yīng)該是普惠的、人人可以用得起的東西?!?/p>
與此同時(shí),在這么低的預(yù)訓(xùn)練成本下,DeepSeek-V3的表現(xiàn)卻很突出。
“DeepSeek-V3超越了迄今為止所有開(kāi)源模型?!边@是國(guó)外獨(dú)立評(píng)測(cè)機(jī)構(gòu)Artificial Analysis測(cè)試了DeepSeek-V3后得出的結(jié)論。
廣發(fā)證券發(fā)布的測(cè)試結(jié)果也顯示,DeepSeek-V3總體能力與豆包、Kimi等其他大模型相當(dāng),但在邏輯推理和代碼生成領(lǐng)域具有自身特點(diǎn)。
例如,在密文解碼任務(wù)中,DeepSeek-V3是唯一給出正確答案的大模型;而在代碼生成的任務(wù)中,DeepSeek-V3給出的代碼注釋、算法原理解釋以及開(kāi)發(fā)流程的指引是最為全面的。在文本生成和數(shù)學(xué)計(jì)算能力方面,DeepSeek-V3并未展現(xiàn)出明顯優(yōu)于其他大模型之處。
至于為何用這么低的成本達(dá)到這樣好的效果,業(yè)內(nèi)人士多認(rèn)為,DeepSeek-V3通過(guò)數(shù)據(jù)與算法層面的優(yōu)化,大幅提升算力利用效率,實(shí)現(xiàn)了協(xié)同效應(yīng)。
DeepSeek方面則表示,這得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架構(gòu),實(shí)現(xiàn)了高效的推理和經(jīng)濟(jì)高效的訓(xùn)練。又引入了輔助損失自由負(fù)載平衡策略和多token預(yù)測(cè)訓(xùn)練目標(biāo),提升了模型性能。同時(shí),在14.8萬(wàn)億個(gè)高質(zhì)量token上進(jìn)行了預(yù)訓(xùn)練時(shí),通過(guò)監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)階段充分挖掘了其潛力。
“這證明,即使在硬件資源有限的情況下,依托數(shù)據(jù)與算法層面的優(yōu)化創(chuàng)新,仍然可以高效利用算力,實(shí)現(xiàn)較好的模型效果。”一位科技行業(yè)分析師對(duì)記者表示。
在DeepSeek-V3刷屏之際,有一個(gè)bug也引發(fā)熱議。
有用戶在對(duì)話框中詢問(wèn)“你是什么模型”時(shí),它給出了一個(gè)令人詫異的回答:“我是一個(gè)名為ChatGPT的AI語(yǔ)言模型,由OpenAl開(kāi)發(fā)?!眹?guó)內(nèi)外不少用戶都反映了這一現(xiàn)象。
對(duì)此,OpenAI聯(lián)合創(chuàng)始人、首席執(zhí)行官Sam Altman發(fā)帖文表示:“復(fù)制容易,創(chuàng)新很難?!蓖饷街赋?,Altman這篇帖文意在暗諷其競(jìng)爭(zhēng)對(duì)手對(duì)OpenAI數(shù)據(jù)的挖掘。
不過(guò),DeepSeek-V3也并非第一個(gè)錯(cuò)誤識(shí)別自己的模型,谷歌的Gemini等有時(shí)也會(huì)聲稱是競(jìng)爭(zhēng)模型。
造成這種情況的原因可能在于,AI公司在互聯(lián)網(wǎng)上獲取大量訓(xùn)練數(shù)據(jù),但是,如今的互聯(lián)網(wǎng)本就充斥著海量用AI生產(chǎn)出來(lái)的數(shù)據(jù)?!盎ヂ?lián)網(wǎng)數(shù)據(jù)現(xiàn)在充斥著AI輸出。”非營(yíng)利組織AI Now Institute的首席AI科學(xué)家Khlaaf表示,基于此,如果DeepSeek部分使用了OpenAI模型進(jìn)行提煉數(shù)據(jù),也不足為奇。
Lepton AI創(chuàng)始人賈揚(yáng)清則表示,2019年,他和Deepseek團(tuán)隊(duì)進(jìn)行了一次交流。從某種程度上來(lái)說(shuō),他們?nèi)〉玫膫ゴ蟪删驮从诙嗄甑膶I(yè)知識(shí),但這點(diǎn)卻被許多人忽視了。
前英偉達(dá)機(jī)器學(xué)習(xí)專家Bojan Tunguz則表示,所有針對(duì)高端半導(dǎo)體的出口禁令實(shí)際上可能以可以想象到的“最壞”方式產(chǎn)生了反效果。它們似乎迫使中國(guó)研究人員變得比正常情況下更加聰明和資源高效。“這似乎也證實(shí)了我自己的假設(shè),即我們距離擁有人工智能機(jī)器學(xué)習(xí)部分的最佳算法還有很長(zhǎng)的路要走?!?/p>
AI大模型應(yīng)用走向普惠
DeepSeek-v3的成功引發(fā)了關(guān)于算力、大模型訓(xùn)練方式的大討論,一些業(yè)內(nèi)人士甚至開(kāi)始擔(dān)憂行業(yè)對(duì)算力的需求或大幅下降。
但也有觀點(diǎn)認(rèn)為,DeepSeek表現(xiàn)固然優(yōu)秀,但其統(tǒng)計(jì)口徑只計(jì)算了預(yù)訓(xùn)練,數(shù)據(jù)的配比需要做大量的預(yù)實(shí)驗(yàn),合成數(shù)據(jù)的生成和清洗也需要消耗算力。此外,在訓(xùn)練上做降本增效不代表算力需求會(huì)下降,只代表科技巨頭可以用性價(jià)比更高的方式去做模型極限能力的探索。
“其實(shí)這個(gè)成功案例,讓大家看到了行業(yè)的潛力,反而會(huì)進(jìn)一步加大投入,國(guó)內(nèi)外對(duì)算力的需求還會(huì)增加?!鄙鲜隹萍夹袠I(yè)分析師表示,DeepSeek的成功將給國(guó)內(nèi)其他企業(yè)帶來(lái)啟發(fā),如何更高效地利用算力資源,有望推動(dòng)更多的中小型企業(yè)入局。
科技媒體Maginative的創(chuàng)始人兼主編Chris McKay對(duì)此評(píng)論稱,對(duì)于人工智能行業(yè)來(lái)說(shuō),DeepSeek-V3代表了一種潛在的范式轉(zhuǎn)變,即大型語(yǔ)言模型的開(kāi)發(fā)方式。這一成就表明,通過(guò)巧妙的工程和高效的訓(xùn)練方法,可能無(wú)須以前認(rèn)為必需的龐大計(jì)算資源,就能實(shí)現(xiàn)人工智能的前沿能力?!半S著開(kāi)源模型與閉源模型之間的差距不斷縮小,公司可能需要在一個(gè)競(jìng)爭(zhēng)日益激烈的市場(chǎng)中重新評(píng)估他們的策略和價(jià)值主張?!?/p>
民生證券指出,大模型應(yīng)用場(chǎng)景不斷拓展,這使得對(duì)推理算力的需求不斷攀升,主要集中在硬件設(shè)備算力需求、數(shù)據(jù)中心規(guī)模擴(kuò)張需求、通信網(wǎng)絡(luò)需求三方面。
以目前火熱的豆包大模型為例,其將帶來(lái)多少推理端的算力需求增量?分析師根據(jù)目前豆包的月活、日活以及日均token調(diào)用量為基礎(chǔ),做出保守、中性、樂(lè)觀3種假設(shè),預(yù)計(jì)豆包大模型或?qū)⒎謩e帶來(lái)759億元、1139億元、1898億元的AI服務(wù)器資本開(kāi)支需求。
海外科技巨頭也正在大手筆加大資本開(kāi)支。據(jù)摩根士丹利預(yù)估,海外四大科技巨頭在2025年的資本開(kāi)支可能高達(dá)3000億美元,其中亞馬遜964億美元、微軟899億美元、Alphabet 626億美元、Meta 523億美元。
隨著端側(cè)AI放量,豆包、ChatGPT等AI應(yīng)用快速發(fā)展,多家券商研報(bào)指出,算力需求會(huì)加速?gòu)念A(yù)訓(xùn)練向推理側(cè)傾斜,推理有望接力訓(xùn)練,成為下一階段算力需求的主要驅(qū)動(dòng)力。
12月30日,中信證券研報(bào)指出,近日,DeepSeek-V3的正式發(fā)版引起AI業(yè)內(nèi)廣泛高度關(guān)注,其在保證了模型能力的前提下,訓(xùn)練效率和推理速度大幅提升。DeepSeek新一代模型的發(fā)布意味著AI大模型的應(yīng)用將逐步走向普惠,助力AI應(yīng)用廣泛落地;同時(shí)訓(xùn)練效率大幅提升,亦將助力推理算力需求高增。
公開(kāi)數(shù)據(jù)顯示,截至2023年,中國(guó)算力總規(guī)模位列全球第二,累計(jì)建成國(guó)家級(jí)超算中心14個(gè),全國(guó)在用超大型和大型數(shù)據(jù)中心達(dá)633個(gè)、智算中心達(dá)60個(gè)。
“過(guò)去很多年,中國(guó)公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過(guò)來(lái)做應(yīng)用變現(xiàn),但這并非一種理所當(dāng)然。這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展?!绷何匿h表示。
(編輯:張靖超 審核:李正豪 校對(duì):顏京寧)