夜夜揉揉日日人人青青,偷窥精品在线视频,精品妇女一区二区三区,a√天堂98国产在线

<span id="lndpy"></span>
  • <small id="lndpy"><del id="lndpy"><rt id="lndpy"></rt></del></small><dfn id="lndpy"></dfn>
    <bdo id="lndpy"><delect id="lndpy"><legend id="lndpy"></legend></delect></bdo>
  • <address id="lndpy"><ul id="lndpy"><strike id="lndpy"></strike></ul></address>
    “大模型性價(jià)比之王”刷屏 DeepSeek打破算力需求“怪圈”?

    “大模型性價(jià)比之王”刷屏 DeepSeek打破算力需求“怪圈”?

    gongjiaming 2025-03-01 全身體檢 8 次瀏覽 0個(gè)評(píng)論

    本報(bào)記者 吳清 北京報(bào)道

    近日,一家來(lái)自中國(guó)的公司Deepseek在全球AI界刷屏,其最新推出的大模型DeepSeek-V3,迅速在AI行業(yè)內(nèi)引發(fā)廣泛關(guān)注和熱議,主要原因就是預(yù)訓(xùn)練成本之低,其訓(xùn)練同樣性能的大模型成本僅是行業(yè)主流的十分之一左右。

    與此同時(shí),相比其他主流大模型,DeepSeek-V3的性能卻足以比肩乃至更優(yōu)。DeepSeek官方微信公眾號(hào)稱,其在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

    公開(kāi)信息顯示,Deepseek的中文名是“深度求索”,為量化巨頭幻方量化的子公司。作為一家隱形的AI巨頭,幻方目前擁有1萬(wàn)枚英偉達(dá)A100芯片,2023年4月幻方宣布成立新組織,集中資源和力量,探索AGI(通用人工智能)的本質(zhì),在一年多時(shí)間里進(jìn)展迅速。在硅谷,DeepSeek如今被稱作“來(lái)自東方的神秘力量”。

    表現(xiàn)震驚AI圈

    引發(fā)熱議背后的一個(gè)焦點(diǎn)是,預(yù)訓(xùn)練成本之低——這個(gè)參數(shù)量高達(dá)671B的大模型,在預(yù)訓(xùn)練階段僅使用2048塊GPU訓(xùn)練了2個(gè)月,且只花費(fèi)557.6萬(wàn)美元。其訓(xùn)練費(fèi)用相比GPT-4等大模型要少得多,據(jù)外媒估計(jì),Meta的大模型Llama-3.1的訓(xùn)練投資超過(guò)了5億美元。

    OpenAI創(chuàng)始成員Karpathy對(duì)此感嘆:“DeepSeek-V3讓在有限算力預(yù)算上進(jìn)行模型預(yù)訓(xùn)練變得容易。DeepSeek-V3看起來(lái)比Llama-3-405B更強(qiáng),訓(xùn)練消耗的算力卻僅為后者的1/11?!?/p>

    記者注意到,2024年5月,Deepseek發(fā)布的一款名為DeepSeek V2的開(kāi)源模型,因其令人震驚的性價(jià)比——推理成本被降到每百萬(wàn)token僅1塊錢,在AI界一躍成名。隨后,字節(jié)跳動(dòng)、阿里巴巴、騰訊、百度等紛紛跟進(jìn),打響中國(guó)大模型價(jià)格戰(zhàn)。僅僅過(guò)去半年多,Deepseek再度進(jìn)化。

    在接受暗涌的采訪中,幻方量化和Deepseek創(chuàng)始人梁文鋒表示:“我們降價(jià)一方面是因?yàn)槲覀冊(cè)谔剿飨乱淮P偷慕Y(jié)構(gòu)中,成本先降下來(lái)了,另一方面也覺(jué)得無(wú)論API(應(yīng)用程序編程接口),還是AI,都應(yīng)該是普惠的、人人可以用得起的東西?!?/p>

    與此同時(shí),在這么低的預(yù)訓(xùn)練成本下,DeepSeek-V3的表現(xiàn)卻很突出。

    “DeepSeek-V3超越了迄今為止所有開(kāi)源模型?!边@是國(guó)外獨(dú)立評(píng)測(cè)機(jī)構(gòu)Artificial Analysis測(cè)試了DeepSeek-V3后得出的結(jié)論。

    廣發(fā)證券發(fā)布的測(cè)試結(jié)果也顯示,DeepSeek-V3總體能力與豆包、Kimi等其他大模型相當(dāng),但在邏輯推理和代碼生成領(lǐng)域具有自身特點(diǎn)。

    例如,在密文解碼任務(wù)中,DeepSeek-V3是唯一給出正確答案的大模型;而在代碼生成的任務(wù)中,DeepSeek-V3給出的代碼注釋、算法原理解釋以及開(kāi)發(fā)流程的指引是最為全面的。在文本生成和數(shù)學(xué)計(jì)算能力方面,DeepSeek-V3并未展現(xiàn)出明顯優(yōu)于其他大模型之處。

    至于為何用這么低的成本達(dá)到這樣好的效果,業(yè)內(nèi)人士多認(rèn)為,DeepSeek-V3通過(guò)數(shù)據(jù)與算法層面的優(yōu)化,大幅提升算力利用效率,實(shí)現(xiàn)了協(xié)同效應(yīng)。

    DeepSeek方面則表示,這得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架構(gòu),實(shí)現(xiàn)了高效的推理和經(jīng)濟(jì)高效的訓(xùn)練。又引入了輔助損失自由負(fù)載平衡策略和多token預(yù)測(cè)訓(xùn)練目標(biāo),提升了模型性能。同時(shí),在14.8萬(wàn)億個(gè)高質(zhì)量token上進(jìn)行了預(yù)訓(xùn)練時(shí),通過(guò)監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)階段充分挖掘了其潛力。

    “這證明,即使在硬件資源有限的情況下,依托數(shù)據(jù)與算法層面的優(yōu)化創(chuàng)新,仍然可以高效利用算力,實(shí)現(xiàn)較好的模型效果。”一位科技行業(yè)分析師對(duì)記者表示。

    在DeepSeek-V3刷屏之際,有一個(gè)bug也引發(fā)熱議。

    有用戶在對(duì)話框中詢問(wèn)“你是什么模型”時(shí),它給出了一個(gè)令人詫異的回答:“我是一個(gè)名為ChatGPT的AI語(yǔ)言模型,由OpenAl開(kāi)發(fā)?!眹?guó)內(nèi)外不少用戶都反映了這一現(xiàn)象。

    對(duì)此,OpenAI聯(lián)合創(chuàng)始人、首席執(zhí)行官Sam Altman發(fā)帖文表示:“復(fù)制容易,創(chuàng)新很難?!蓖饷街赋?,Altman這篇帖文意在暗諷其競(jìng)爭(zhēng)對(duì)手對(duì)OpenAI數(shù)據(jù)的挖掘。

    不過(guò),DeepSeek-V3也并非第一個(gè)錯(cuò)誤識(shí)別自己的模型,谷歌的Gemini等有時(shí)也會(huì)聲稱是競(jìng)爭(zhēng)模型。

    造成這種情況的原因可能在于,AI公司在互聯(lián)網(wǎng)上獲取大量訓(xùn)練數(shù)據(jù),但是,如今的互聯(lián)網(wǎng)本就充斥著海量用AI生產(chǎn)出來(lái)的數(shù)據(jù)?!盎ヂ?lián)網(wǎng)數(shù)據(jù)現(xiàn)在充斥著AI輸出。”非營(yíng)利組織AI Now Institute的首席AI科學(xué)家Khlaaf表示,基于此,如果DeepSeek部分使用了OpenAI模型進(jìn)行提煉數(shù)據(jù),也不足為奇。

    Lepton AI創(chuàng)始人賈揚(yáng)清則表示,2019年,他和Deepseek團(tuán)隊(duì)進(jìn)行了一次交流。從某種程度上來(lái)說(shuō),他們?nèi)〉玫膫ゴ蟪删驮从诙嗄甑膶I(yè)知識(shí),但這點(diǎn)卻被許多人忽視了。

    前英偉達(dá)機(jī)器學(xué)習(xí)專家Bojan Tunguz則表示,所有針對(duì)高端半導(dǎo)體的出口禁令實(shí)際上可能以可以想象到的“最壞”方式產(chǎn)生了反效果。它們似乎迫使中國(guó)研究人員變得比正常情況下更加聰明和資源高效。“這似乎也證實(shí)了我自己的假設(shè),即我們距離擁有人工智能機(jī)器學(xué)習(xí)部分的最佳算法還有很長(zhǎng)的路要走?!?/p>

    AI大模型應(yīng)用走向普惠

    DeepSeek-v3的成功引發(fā)了關(guān)于算力、大模型訓(xùn)練方式的大討論,一些業(yè)內(nèi)人士甚至開(kāi)始擔(dān)憂行業(yè)對(duì)算力的需求或大幅下降。

    但也有觀點(diǎn)認(rèn)為,DeepSeek表現(xiàn)固然優(yōu)秀,但其統(tǒng)計(jì)口徑只計(jì)算了預(yù)訓(xùn)練,數(shù)據(jù)的配比需要做大量的預(yù)實(shí)驗(yàn),合成數(shù)據(jù)的生成和清洗也需要消耗算力。此外,在訓(xùn)練上做降本增效不代表算力需求會(huì)下降,只代表科技巨頭可以用性價(jià)比更高的方式去做模型極限能力的探索。

    “其實(shí)這個(gè)成功案例,讓大家看到了行業(yè)的潛力,反而會(huì)進(jìn)一步加大投入,國(guó)內(nèi)外對(duì)算力的需求還會(huì)增加?!鄙鲜隹萍夹袠I(yè)分析師表示,DeepSeek的成功將給國(guó)內(nèi)其他企業(yè)帶來(lái)啟發(fā),如何更高效地利用算力資源,有望推動(dòng)更多的中小型企業(yè)入局。

    科技媒體Maginative的創(chuàng)始人兼主編Chris McKay對(duì)此評(píng)論稱,對(duì)于人工智能行業(yè)來(lái)說(shuō),DeepSeek-V3代表了一種潛在的范式轉(zhuǎn)變,即大型語(yǔ)言模型的開(kāi)發(fā)方式。這一成就表明,通過(guò)巧妙的工程和高效的訓(xùn)練方法,可能無(wú)須以前認(rèn)為必需的龐大計(jì)算資源,就能實(shí)現(xiàn)人工智能的前沿能力?!半S著開(kāi)源模型與閉源模型之間的差距不斷縮小,公司可能需要在一個(gè)競(jìng)爭(zhēng)日益激烈的市場(chǎng)中重新評(píng)估他們的策略和價(jià)值主張?!?/p>

    民生證券指出,大模型應(yīng)用場(chǎng)景不斷拓展,這使得對(duì)推理算力的需求不斷攀升,主要集中在硬件設(shè)備算力需求、數(shù)據(jù)中心規(guī)模擴(kuò)張需求、通信網(wǎng)絡(luò)需求三方面。

    以目前火熱的豆包大模型為例,其將帶來(lái)多少推理端的算力需求增量?分析師根據(jù)目前豆包的月活、日活以及日均token調(diào)用量為基礎(chǔ),做出保守、中性、樂(lè)觀3種假設(shè),預(yù)計(jì)豆包大模型或?qū)⒎謩e帶來(lái)759億元、1139億元、1898億元的AI服務(wù)器資本開(kāi)支需求。

    海外科技巨頭也正在大手筆加大資本開(kāi)支。據(jù)摩根士丹利預(yù)估,海外四大科技巨頭在2025年的資本開(kāi)支可能高達(dá)3000億美元,其中亞馬遜964億美元、微軟899億美元、Alphabet 626億美元、Meta 523億美元。

    隨著端側(cè)AI放量,豆包、ChatGPT等AI應(yīng)用快速發(fā)展,多家券商研報(bào)指出,算力需求會(huì)加速?gòu)念A(yù)訓(xùn)練向推理側(cè)傾斜,推理有望接力訓(xùn)練,成為下一階段算力需求的主要驅(qū)動(dòng)力。

    12月30日,中信證券研報(bào)指出,近日,DeepSeek-V3的正式發(fā)版引起AI業(yè)內(nèi)廣泛高度關(guān)注,其在保證了模型能力的前提下,訓(xùn)練效率和推理速度大幅提升。DeepSeek新一代模型的發(fā)布意味著AI大模型的應(yīng)用將逐步走向普惠,助力AI應(yīng)用廣泛落地;同時(shí)訓(xùn)練效率大幅提升,亦將助力推理算力需求高增。

    “大模型性價(jià)比之王”刷屏 DeepSeek打破算力需求“怪圈”?

    公開(kāi)數(shù)據(jù)顯示,截至2023年,中國(guó)算力總規(guī)模位列全球第二,累計(jì)建成國(guó)家級(jí)超算中心14個(gè),全國(guó)在用超大型和大型數(shù)據(jù)中心達(dá)633個(gè)、智算中心達(dá)60個(gè)。

    “過(guò)去很多年,中國(guó)公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過(guò)來(lái)做應(yīng)用變現(xiàn),但這并非一種理所當(dāng)然。這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展?!绷何匿h表示。

    (編輯:張靖超 審核:李正豪 校對(duì):顏京寧)

    轉(zhuǎn)載請(qǐng)注明來(lái)自宜賓民心創(chuàng)傷骨科醫(yī)院有限責(zé)任公司,本文標(biāo)題:《“大模型性價(jià)比之王”刷屏 DeepSeek打破算力需求“怪圈”?》

    百度分享代碼,如果開(kāi)啟HTTPS請(qǐng)參考李洋個(gè)人博客
    每一天,每一秒,你所做的決定都會(huì)改變你的人生!
    Top
     澳門綠地分布圖最新消息  印度打中國(guó)最新消息視頻  男孩防曬帽15歲最新款  鶴山婚宴酒席價(jià)格表最新  新場(chǎng)村沙壩水災(zāi)最新消息  港灣酒樓套餐價(jià)格表最新  鋯英砂價(jià)格行情最新  最新款的連衣裙設(shè)計(jì)圖女  最新承包土石方工程價(jià)格表  王府井新聞最新  面包禮品盒最新款圖片高清  袁紹射箭最新消息  發(fā)廊護(hù)理機(jī)器最新款價(jià)格  紹興店鋪轉(zhuǎn)租最新消息網(wǎng)  閱城國(guó)際瑜伽價(jià)格表最新  瑞麗二手三輪車最新價(jià)格  北碚龍鳳橋疫情最新消息  天津淘寶城外貿(mào)最新消息  臺(tái)洲肺炎疫情最新消息  三亞羊雜團(tuán)購(gòu)價(jià)格表最新  中衛(wèi)疫情形勢(shì)最新消息  三棵樹(shù)涂料股價(jià)最新價(jià)格  拓諾塑膠價(jià)格表最新  龍崗天健公租房最新消息  最新戴曉波新聞  棉布發(fā)飾2023最新款  百色鋁礦拍賣最新消息  夏娃服飾穿搭最新款  常州名家字畫價(jià)格表最新  最新款賓利gt跑車廣告