HPE揭開了備受期待的生成式AI超級(jí)計(jì)算機(jī)平臺(tái)的神秘面紗,該平臺(tái)旨在幫助企業(yè)在自己的數(shù)據(jù)中心內(nèi)創(chuàng)建、微調(diào)和運(yùn)行強(qiáng)大的大型語言模型。

此次發(fā)布之際,HPE及其競(jìng)爭(zhēng)對(duì)手Supermicro都宣布對(duì)其用于運(yùn)行生成AI工作負(fù)載的產(chǎn)品組合進(jìn)行重大更新,其中包括一些功能強(qiáng)大的新服務(wù)器,配備了Nvidia最先進(jìn)的Blackwell GPU,這些服務(wù)器在近日舉行的GTC 2024大會(huì)上進(jìn)行了發(fā)布。
HPE一直與Nvidia密切合作,利用Nvidia在高性能計(jì)算方面的專業(yè)知識(shí),構(gòu)建了一套生成式AI超級(jí)計(jì)算機(jī),為開發(fā)人員提供構(gòu)建高級(jí)模型所需的所有軟件和服務(wù),以及強(qiáng)大的計(jì)算能力。
HPE表示,去年11月推出的生成式AI超級(jí)計(jì)算平臺(tái)現(xiàn)已可供訂購(gòu),將為那些需要在自己本地服務(wù)器上運(yùn)行AI項(xiàng)目的企業(yè)提供了一套理想的解決方案。該系統(tǒng)被稱為開發(fā)和訓(xùn)練大型語言模型的全棧解決方案,由Nvidia GH200 Grace Hopper超級(jí)芯片提供支持,并具有生成式AI入門所需的一切,包括液冷系統(tǒng)、加速計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)和AI服務(wù)。
HPE表示,這個(gè)超級(jí)計(jì)算機(jī)平臺(tái)主要面向大型企業(yè)、研究機(jī)構(gòu)和政府機(jī)構(gòu),可直接購(gòu)買或通過HPE GreenLake按使用付費(fèi)模式購(gòu)買。它針對(duì)微調(diào)和推理工作負(fù)載進(jìn)行了預(yù)先配置,提供了強(qiáng)大的計(jì)算、存儲(chǔ)、軟件、網(wǎng)絡(luò)功能以及咨詢服務(wù),幫助企業(yè)開始使用生成式AI。
該系統(tǒng)的底層提供了由HPE ProLiant DL380a Gen11服務(wù)器和Nvidia H100 GPU組合提供支持的高性能AI計(jì)算集群,還集成了Nvidia Spectrum-X以太網(wǎng)網(wǎng)絡(luò)技術(shù)及其BlueField-3數(shù)據(jù)處理單元,用于優(yōu)化AI工作負(fù)載。HPE也將自己的機(jī)器學(xué)習(xí)和分析軟件添加到其中,而Nvidia AI Enterprise 5.0平臺(tái)則附帶了Nvidia新發(fā)布的NIM微服務(wù),有助于簡(jiǎn)化AI開發(fā)工作。
HPE表示將支持各種大型語言模型,包括專有的大型語言模型和開源版本。HPE表示,該系統(tǒng)非常適合AI模型的輕量級(jí)微調(diào)、檢索增強(qiáng)生成和橫向擴(kuò)展推理,并聲稱,這個(gè)16節(jié)點(diǎn)的系統(tǒng)微調(diào)基于Llama 2的700億參數(shù)模型只需要六分鐘。
該產(chǎn)品還旨在解決AI技能上存在的差距,HPE Service為企業(yè)提供了設(shè)計(jì)、部署和管理本地平臺(tái)以及實(shí)施AI項(xiàng)目所需的專業(yè)知識(shí)。
HPE總裁兼首席執(zhí)行官Antonio Neri表示,很多企業(yè)需要一種“混合設(shè)計(jì)型”解決方案以支撐整個(gè)AI生命周期。他解釋說:“從在本地、托管設(shè)施或公有云中訓(xùn)練和調(diào)整模型,到邊緣推理,AI是一種混合云工作負(fù)載?!?/p>
AI軟件堆棧
在對(duì)生成式AI超級(jí)計(jì)算平臺(tái)進(jìn)行最后潤(rùn)色的同時(shí),HPE還與Nvidia合作開發(fā)了利用該平臺(tái)所需的各種軟件系統(tǒng),其中包括從今天起作為技術(shù)預(yù)覽版對(duì)外提供的HPE Machine Learning Inference Software,該軟件將幫助客戶在他們的基礎(chǔ)設(shè)施上快速且安全地部署AI模型,同時(shí)集成了Nvidia新的NIM微服務(wù),提供對(duì)預(yù)構(gòu)建軟件容器中托管的優(yōu)化基礎(chǔ)模型的訪問路徑。
此外HPE表示,已經(jīng)開發(fā)了RAG的參考架構(gòu),該技術(shù)使大型語言模型能夠利用專有的數(shù)據(jù)集來增強(qiáng)知識(shí)。HPE還發(fā)布了HPE Machine Learning Data Management Software、Machine Learning Development Environment Software和Machine Learning Inference Software以支持生成式AI開發(fā)工作。
最后HPE還透露了一些即將推出的新服務(wù)器,這些服務(wù)器將基于Nvidia新發(fā)布的Blackwell GPU架構(gòu),包括Nvidia GB200 Grace Blackwell Superchip、HDX B200和HGXB100 GPU。
Supermicro推出首款基于Blackwell GPU的服務(wù)器
盡管HPE將在未來幾周內(nèi)公布基于Grace的服務(wù)器的更多細(xì)節(jié),但Supermicro似乎已經(jīng)領(lǐng)先一步了。Supermicro在此次GTC 2024大會(huì)上推出了一系列新服務(wù)器,新系統(tǒng)采用GB200 Grace Blackwell Superchip,以及基于Blackwell的B200和B100 Tensor Core GPU。此外Supermicro公司表示,現(xiàn)有基于Nvidia HGX H100和H200的系統(tǒng)正在為新GPU“做好準(zhǔn)備”,這意味著客戶只需要購(gòu)買芯片就可以對(duì)現(xiàn)有的數(shù)據(jù)中心投資進(jìn)行增強(qiáng)。

Supermicro表示,Supermicro將成為第一家在今年晚些時(shí)候推出Nvidia HGX B200 8-GPU和HGX B100 8-GPU系統(tǒng)的服務(wù)器公司。新系統(tǒng)將配備8個(gè)Nvidia新型Blackwell GPU,通過第五代NBLink互連技術(shù)進(jìn)行連接,可提供每秒1.8 TB的帶寬。而且Supermicro承諾,與基于Nvidia舊Hopper架構(gòu)的系統(tǒng)相比,新系統(tǒng)的大型語言模型訓(xùn)練性能將提高3倍。
Nvidia GPU產(chǎn)品管理副總裁Kaustubh Sanghani表示:“Supermicro持續(xù)向市場(chǎng)推出一系列令人驚嘆的加速計(jì)算平臺(tái)服務(wù)器,這些服務(wù)器針對(duì)AI訓(xùn)練和推理進(jìn)行了調(diào)優(yōu),可以滿足當(dāng)今市場(chǎng)的任何需求?!?/p>
為了滿足本地大型語言模型工作負(fù)載的需求,Supermicro構(gòu)建了一系列新型MGX服務(wù)器,這些服務(wù)器將采用GB200 Grace Blackwell Superchip,該芯片比標(biāo)準(zhǔn)GPU芯片更為強(qiáng)大。新款Superchip配備了2個(gè)Blackwell GPU,加上多個(gè)CPU,將為AI推理負(fù)載提供顯著提升,Supermicro聲稱與上一代Superchip相比性能提升了30倍。
對(duì)于最先進(jìn)的大型語言模型工作負(fù)載,Supermicro詳細(xì)介紹了一款基于Nvidia GB200 NVL72的、即將推出的機(jī)架級(jí)服務(wù)器,將在單個(gè)機(jī)架中連接36個(gè)Nvidia Grace CPU和72個(gè)Blackwell GPU,此配置中的每個(gè)GPU都將采用最新的Nvidia NVLink技術(shù),GPU到GPU的通信速度高達(dá)每秒1.8太比特。