春節(jié)期間,國(guó)產(chǎn)大模型 DeepSeek-R1 橫空出世,證明了用更低的成本、更少的算力需求,就可以實(shí)現(xiàn)世界一流的模型性能水平。
R1 的出現(xiàn)似乎打破了大模型 “?燒更多的錢買更強(qiáng)的芯片,換來(lái)更優(yōu)性能產(chǎn)品 ” 的傳統(tǒng)路徑。1 月 27 日,英偉達(dá)股價(jià)單日下跌近 17% 。
不過(guò),在人類通往 AGI 的路上,算力真的沒(méi)那么重要了嗎?
谷歌、微軟、Meta和亞馬遜這硅谷四個(gè)科技巨頭可能并不這么想。
從 1 月 30 日起至今,這四家公司接連發(fā)布了自己的財(cái)報(bào),而在最新的財(cái)報(bào)中,他們都不約而同的提到:2025 年,要花更多的錢來(lái)布局算力。
谷歌母公司 Alphabet 對(duì)?2025 年的資本開支目標(biāo)為 750 億美元,相比 2024 年增加了 42%?。谷歌表示,在 2024 年四季度,他們發(fā)現(xiàn)人們對(duì) AI 產(chǎn)品有非常強(qiáng)勁的需求,以至于需求超過(guò)了他們的可用容量。因此,他們將努力解決這一問(wèn)題,確保他們有更多容量 —— 也就是花錢搞更多算力。
微軟則提到 2025 財(cái)年( 財(cái)年截至 6 月份 )將在人工智能數(shù)據(jù)中心上投入 800 億美元,原因也與谷歌相同 —— 市場(chǎng)需求持續(xù)高于他們的可用容量,需要擴(kuò)充。
微軟還在電話會(huì)中表示,這樣的投入他們甚至還是保守了的,因?yàn)?“ 不能一次買太多,因?yàn)槟柖墒褂布磕甓紩?huì)有性能提升,一下子買太多會(huì)虧,要把握好節(jié)奏?!?/p>
Meta 方面,2025 年的資本開支預(yù)算是 650 億美元,相較于 2024 年增長(zhǎng)了 66%,扎克伯格表示:“ 我仍然認(rèn)為,從長(zhǎng)遠(yuǎn)來(lái)看,大力投資資本支出和基礎(chǔ)設(shè)施上將是一種戰(zhàn)略優(yōu)勢(shì)。也許我們會(huì)在某個(gè)時(shí)刻得出不同的結(jié)論,但現(xiàn)在還為時(shí)過(guò)早。此時(shí)此刻,我會(huì)賭注于,能夠構(gòu)建出這種基礎(chǔ)設(shè)施將成為我們的一大優(yōu)勢(shì)。”
亞馬遜則是在最新一季的電話會(huì)中提到 2025 年的資本開支將達(dá)到約 1000-1050 億美元,比去年的 830 億美元增加了 24%,亞馬遜首席財(cái)務(wù)官 Brian Olsavsky 在財(cái)報(bào)電話會(huì)上表示,這筆資本支出的 “ 絕大部分 ” 將用于AI和云服務(wù)AWS。
四巨頭都在算力上繼續(xù)增加投入,并不是因?yàn)榭床簧?DeepSeek,反而是非常認(rèn)同 DeepSeek。
亞馬遜首席執(zhí)行官 Andy Jassy 表示,推理成本的減少,不意味著總支出會(huì)下降,“ 實(shí)際情況并非如此,我們?cè)谠朴?jì)算領(lǐng)域經(jīng)歷過(guò)類似情形 ”。
而微軟的 CEO 此前也在 X 上發(fā)博轉(zhuǎn)發(fā)了維基百科的 “ 杰文斯悖論 ” 詞條來(lái)表示他的態(tài)度。
杰文斯悖論的核心邏輯是:技術(shù)提高資源使用效率后,可能會(huì)因人類行為的改變或市場(chǎng)反饋,導(dǎo)致總消耗量不降反升。
舉一個(gè)非常簡(jiǎn)單的例子:隨著汽車技術(shù)的不斷提升,發(fā)動(dòng)機(jī)的熱效率不斷提高,變得越來(lái)越省油,但由于效率提高使得用車成本降低,人們會(huì)買更多的車、開更遠(yuǎn)的路,最后反而使得石油的消耗量變大。
同理,在 AI 世界里,DeepSeek 就是那臺(tái)效率更高的發(fā)動(dòng)機(jī),而算力就是汽油,單輛車的耗油量變低了,整個(gè)市場(chǎng)的汽油用量卻會(huì)增多。
要知道,DeepSeek-R1 雖然訓(xùn)練成本低,但也是遵循 Scaling Law ( 規(guī)模擴(kuò)展法則 )的。
在?Scaling Law?之下,我們可以簡(jiǎn)單粗暴地把模型表現(xiàn)和算力需求看成一個(gè) y=ax 的正相關(guān)函數(shù),過(guò)去的模型的斜率 a 相對(duì)較小(?效率相對(duì)較低 ),模型表現(xiàn)雖然會(huì)隨著算力的加大而變得更好,但是增長(zhǎng)較慢。DeepSeek ?的斜率 a 則相對(duì)較大(?效率相對(duì)較高?),模型表現(xiàn)隨算力加大而表現(xiàn)變得更好的速度會(huì)更快。
在這種情況下,你會(huì)因?yàn)樾矢叨鴾p少投入嗎?你大概率會(huì)因?yàn)樾矢叨哟笸度搿?/p>
所以,與其擔(dān)心算力過(guò)剩,我們似乎更應(yīng)該關(guān)心的是算力和效率我們都有,但是已經(jīng)沒(méi)有優(yōu)質(zhì)數(shù)據(jù)可以用來(lái)訓(xùn)練了。
同樣還是拿汽車來(lái)舉例子,當(dāng)汽車的油耗( 模型效率 )和汽油( 算力 )都充沛的情況下,大家都買了車,最后卻發(fā)現(xiàn)出行速度沒(méi)辦法進(jìn)一步提升了,因?yàn)槁罚?優(yōu)質(zhì)訓(xùn)練數(shù)據(jù) )不夠了,堵車了。
或許在未來(lái),數(shù)據(jù)標(biāo)注師會(huì)越來(lái)越少,世界會(huì)冒出來(lái)很多 “ 數(shù)據(jù)生產(chǎn)師?”,他們每天坐在格子間里,絞盡腦汁創(chuàng)造能提高模型性能的優(yōu)質(zhì)數(shù)據(jù)。