從2022年10月底ChatGPT橫空出世,到去年3月百模大戰(zhàn)興起,一年多時間過去,許多家都宣稱自己的大模型水平來到第一梯隊(duì),更不乏有所謂全面超越GPT的,列出來的跑分也是各種吊打。
在上海人工智能實(shí)驗(yàn)室上周剛剛公布的測評榜單上,GPT-4依舊獨(dú)領(lǐng)風(fēng)騷,排名第一,不過國產(chǎn)陣營已經(jīng)大踏步追了上來,差距逐步縮小。
那么國產(chǎn)大模型到底來到了什么樣的水平,理論跑分和實(shí)踐效果有多大的差距?帶著這些問題我們橫評三款公認(rèn)水平比較高的國產(chǎn)大模型,分別是智譜GLM-4,文心一言4.0和字節(jié)的豆包,測評基準(zhǔn)則是GPT-4。
一、測評標(biāo)準(zhǔn)
由于是主觀測評(畢竟客觀測評看跑分就夠了),所以我們按照10分滿分制做了一個測評量表如下。
體驗(yàn)環(huán)境:網(wǎng)頁版
打分標(biāo)準(zhǔn):既然是測試,量化尺度還是要講的,每輪回答效果十分制打分。
分?jǐn)?shù)解釋10分理想回答,全面滿足我的需求5分有價值及格線,沒有完全滿足,還需做得更好1分你說你懂我,可你又不回答我0分你不懂我
二、基礎(chǔ)測試
聯(lián)網(wǎng)查詢、數(shù)據(jù)分析、多模態(tài)文生圖、長文檔解讀、還有智能體,這些基本能力測試是國產(chǎn)大模型刷分最多的地方,那么在實(shí)際案例里它們的表現(xiàn)如何呢?
1、聯(lián)網(wǎng)查詢
大模型歷來存在幻覺、實(shí)時性不足等問題。高級聯(lián)網(wǎng)功能允許模型通過自主搜索查詢,獲取更新更準(zhǔn)確的信息,提高答案的準(zhǔn)確性和實(shí)時性。
個人偏好聽歌演唱會,來2道這方面的問答看看~
問題1:杭州周杰倫演唱會門票價格
2月2號在某麥開售即秒沒,大家真的太有錢了……看看模型能否回答最新場次票價?
GLM4:
GPT4:
文心4.0:
豆包:
各家都成功調(diào)用了聯(lián)網(wǎng)搜索功能,均得10分,豆包的格式真的優(yōu)雅~
問題2:旋轉(zhuǎn)保齡《老婆不在家》歌詞中,她更喜歡她的___和___?
答:Beyond 和 劉德華
GLM4:
GPT4:
文心4.0:
豆包:
測試了一首我很喜歡但是相對冷門的歌詞,除了豆包莫名其妙判斷不恰當(dāng)以外,其他3家再積10分~
本環(huán)節(jié)分?jǐn)?shù)如下
2、數(shù)據(jù)分析
最期待的新功能!數(shù)據(jù)分析也算是各類文職必備技能了,算數(shù)統(tǒng)計(jì)找歸因,屬實(shí)令人頭禿,讓大模型幫你干活~
Prompt:統(tǒng)計(jì): requester為Other的Number of Requests,按Country為Germany的進(jìn)行排列,折線圖形式
(附件數(shù)據(jù)來源:google-government-removal-requests.csv)
數(shù)據(jù)分析功能目前僅GPT4和GLM4支持。
這個需求來自一位法師朋友,她的原始數(shù)據(jù)非常雜亂,想要提取信息需要費(fèi)點(diǎn)勁
看到兩家的輸出流下了感激的淚水
GLM4:
GPT4:
文心4.0:
文心無法上傳csv數(shù)據(jù),不具備分析能力,本輪不能完成任務(wù)。
豆包:
豆包無法上傳文檔,不具備分析能力,本輪不能完成任務(wù)。
本環(huán)節(jié)分?jǐn)?shù)如下
3、多模態(tài)-文生圖
文生圖代表的多模態(tài)能力被普遍認(rèn)為是大模型的一個重點(diǎn)指標(biāo),大家表現(xiàn)怎么樣呢?
Prompt1-1:畫一個動畫角色史努比的頭像形象,需要沖浪動作,背景是海浪,畫風(fēng)是動畫。
GLM4:
GPT4:
文心4.0:
豆包:
Prompt1-2:換成史努比在房子上躺著睡覺。
GLM4:
GPT4:
文心4.0:
豆包:
該形象的所屬公司一直很關(guān)注版權(quán)問題,各家模型在合規(guī)上都較滿意
?一輪最佳 GLM4,配色精準(zhǔn),動作領(lǐng)會,不過尾巴被畫上了腳,仍有提升空間,計(jì)8分;
GPT4挺適合做頭像,然而黃狗不符需求,計(jì)6分;
至于文心和豆包……我已經(jīng)盡力從四圖挑選像狗的了……計(jì)2分
?二輪最佳 GPT4-Dalle3的配色恢復(fù)了,好很多,計(jì)8分
GLM4繼續(xù)穩(wěn)定發(fā)揮角色理解,不過這輪的狗頭有點(diǎn)抽象了,動作也是趴著,問題需要關(guān)注,計(jì)5分;
文心和豆包……這輪的圖更難為人了……計(jì)0分。
Prompt2:《Her》中主角形象,畫個波點(diǎn)畫
GLM4:
GPT4:
文心4.0:
很抱歉,存在暫不支持的特殊符號和英文。
豆包:
抱歉,作為語言模型,我無法為你直接繪制圖像?!禜er》是一部2013年的電影,講述了男主角西奧多和人工智能薩曼莎之間的愛情故事。你可以嘗試在搜索引擎上輸入“電影Her 主角波點(diǎn)畫”來獲取相關(guān)的圖片。
本題各家都很差,GLM4和Dalle只能給繪圖意圖1分,對于電影、波點(diǎn)畫等理解不夠好,文心和豆包完全不能滿足,0分。
本環(huán)節(jié)分?jǐn)?shù)如下
4、文檔解讀
提煉一本教材的核心內(nèi)容,來看看各家效果如何。
提問:歸納一下講的什么內(nèi)容
(附件數(shù)據(jù)來源:電工學(xué)(電工技術(shù))第七版上冊.pdf)
GLM4:
GPT4:
文心4.0:
豆包:
豆包無法上傳文檔,本輪不能完成任務(wù)。
受限文檔長度各家解讀都不完整,文心4.0只能讀取前100頁,而且有點(diǎn)學(xué)雜了;GPT4歸納比文心精煉;GLM4信息更豐富,語言精煉不啰嗦,沒有錯字;豆包依然因不具備能力而0分。
本環(huán)節(jié)分?jǐn)?shù)如下
5、智能體
最近大火的智能體Agent能力,四個模型中有三個已經(jīng)具備。
寫一個拜年大全,主要衡量標(biāo)準(zhǔn)是能夠自主帶上當(dāng)年的生肖內(nèi)容。
初始界面:
GLM4:
GPT4:
豆包:
智能體配置:
GLM4:
GPT4:
豆包:
效果:
GLM4:
GPT4:
豆包:
(為對齊豆包沒有配置功能,GLMs和GPTs的智能體配置自動生成后不做修改;由于豆包限制無法上傳知識庫,故諧音梗也不對豆包做要求)
整體效果來看,GPTs最佳,投喂諧音梗融會貫通,句式偏單一;GLMs默認(rèn)生成的配置可用性有待提升,對諧音指令沒有理解,品質(zhì)跟豆包差不多。
GLMs配置經(jīng)過手動修改后,效果提升明顯,基本達(dá)到了GPTs的默認(rèn)水平。
本環(huán)節(jié)最終計(jì)分排名如下:
GPTs最好,因默認(rèn)配置高可用、一次過關(guān)得10分;
GLMs鑒于修改后品質(zhì)有提升,得7分;
豆包因?yàn)椴荒芨呐渲茫Ч芽剡€得從抽象的描述語下手優(yōu)化,計(jì)6分;
文心不具備功能,不得分。
新功能效果最終得分
可以看到智譜GLM-4 各項(xiàng)新功能與GPT4對齊很緊湊,基礎(chǔ)能力差距不大,但智能體水平明顯落后。文心一言4.0和豆包或多或少在某些功能上有所缺失,需要補(bǔ)齊。
三、應(yīng)用實(shí)踐
我們從日常生活、工作選了一些真實(shí)需求場景,不加輔助也沒有上下文干預(yù),直接對大模型提問,來看看它們的表現(xiàn)吧~
1、文本生成,讓模型來句吉利話
年關(guān)將至,不論走親訪友,還是發(fā)朋友圈,都少不了順口的祝福語。
國內(nèi)大模型本地化都好過GPT4,具體表現(xiàn)看下圖!
GLM4:
GPT4:
文心4.0:
豆包:
祝福語環(huán)節(jié)各家都有瑕疵,評判標(biāo)準(zhǔn)按整句都有壓上韻、且能給到更長,各家分?jǐn)?shù)如下
2、語義理解,來一輪常識快問快答~
問問用戶畫像?
四家能理解需求,GLM-4主動調(diào)用搜索查了資料,信息量更大,綜合提高了內(nèi)容置信程度,是我理想的10分回答。
其他三家顯得有點(diǎn)泛了。
GLM4:
GPT4:
文心4.0:
豆包:
等等,還有老干媽衛(wèi)衣??
驚呆了!
下一題,今年元宵節(jié)幾號?
答:2024年2月24日
于模型而言有一個大坑,“今年是哪年”
本輪豆包獲勝10分。
GPT4又是一通操作,拉出python算日歷,“occurs 15 days after Lunar New Year”這套算法可給各位看笑了,本地化還是不行呀。
GLM4起碼知道2024年,但是查不清數(shù),GPT4和GLM4勉強(qiáng)得1分。
文心還是不太能理解今夕何夕,嚴(yán)格講不算對,5分很勉強(qiáng)了。
GLM4:
GPT4:
文心4.0:
豆包:
本環(huán)節(jié)分?jǐn)?shù)如下
3、數(shù)理計(jì)算,小孩嫌大人愁的數(shù)學(xué)題來了!
先請出高考客觀題,眾所周知模型很不擅長這些,試卷答案也不給解題步驟,所以模型沒有小抄可學(xué)~
寒假期末考請聽題!
開胃甜點(diǎn)~
問:圓C的方程是x(2)+y(2)+2x+4y=0,則其圓心坐標(biāo)是 ,半徑是
答:(-1,-2),
本輪全勝~
還小試了一下?lián)Q了個數(shù),避免有模型儲備原題,發(fā)現(xiàn)還是可以正常解的,各家仍是正確結(jié)果。
GLM4:
GPT4:
文心4.0:
豆包:
再來!
問:已知正數(shù)a,b,c滿足 ,則的最大值為
答:-2
GLM4與GPT4本輪平手,都滿分,文心和豆包一通操作猛如虎,輪到輸出嘛,0分……
GLM4:
GPT4:
文心4.0:
豆包:
高考大題!
問:設(shè)a∈R,函數(shù)f(x)=|x(2)+ax|,
(1)若f(x)在[0,1]上單調(diào)遞增,求a的取值范圍;
(2)記M(a)為f(x)在[0,1]上的最大值,求M(a)的最小值.
答:(1)a≥0或a≤-2;(2)最小值
本題分值:10分,第一小題回答部分答案計(jì)3分,完整計(jì)5分,第二小題5分
GLM4:
GPT4:
文心4.0:
豆包:
本環(huán)節(jié)計(jì)分排名如下:
4、代碼解釋,編程能力強(qiáng)不強(qiáng),實(shí)踐出真知~
用代碼畫一個一箭穿心
Python畫心已經(jīng)玩過很多了,一箭穿心如何?代碼能跑出來的期望效果如下,看哪家最接近~
GLM-4對比其他家美觀一些,就是這個一箭穿心跟我想得不太一樣,復(fù)制代碼單獨(dú)跑驗(yàn)證一致。
GPT4起碼畫出了心,就是穿得很迷離,而文心和豆包的心都不知道哪去了……
GLM4:
GPT4:
文心4.0:
豆包:
本輪效果都不是很滿意,跟穿心好像沒啥關(guān)系
GLM4和GPT4好在還有個心,而GPT4那飄逸的穿法也讓人印象深刻,GLM4明確畫出了箭頭元素,得6分,GPT4得5分。
文心、豆包都沒達(dá)到基本效果,0分~
應(yīng)用實(shí)踐最終得分
綜合來看,GLM-4在各個場景表現(xiàn)可圈可點(diǎn),穩(wěn)如四邊形戰(zhàn)士;不得不提文心4.0的表現(xiàn)真的很牛,唯一一家高考數(shù)學(xué)大題能拿下完整第一小題得分的學(xué)霸,卻在代碼這塊翻車了;豆包的常識查詢目前最好,“今年”這個陷阱優(yōu)雅的越過;GPT4雖說是最強(qiáng)大模型,但多少還是有點(diǎn)水土不服,高昂的價格加上國內(nèi)使用限制,目前來看用戶也許有了新選擇……
四、三個月能發(fā)生什么?
智譜的GLM-4表現(xiàn)可以說可圈可點(diǎn),作為1月剛更新的新模型,我們特地拿它和3個月前發(fā)布的,目前依舊在產(chǎn)品端上線中的GLM-3做了個對比,也算是讓大家直觀感受到國產(chǎn)大模型的進(jìn)步速度吧!
1、文本生成
上面試了祝福語,在這寫點(diǎn)小情書吧~
上一代模型GLM-3 給了一大段,情緒表達(dá)相當(dāng)直接。
在GLM-4上,能選的句子更多,量大管飽多場景,兄弟你成長了很多嘛~
GLM3:
GLM4:
2、語義理解
問題1:車?yán)遄覵antina是雜交品種么,原產(chǎn)地是哪里
車?yán)遄映蔀榱私鼉赡甑男履曦?,看看模型是否了解品種知識
上一代模型GLM-3的知識庫顯然沒有存儲車?yán)遄悠贩N的信息,對Santina的培育情況并不了解,還是按歐洲甜櫻桃來回復(fù)、
GLM-4 主動聯(lián)網(wǎng)查詢,獲得了正確結(jié)果,信息量很大。
GLM3:
GLM4:
再來一題:"I firmly believe that respect is a lot more important, and a lot greater, than popularity",幫我搜一下這句是誰的名言?
GLM-3 回答了艾森豪威爾,經(jīng)驗(yàn)證是錯誤的,還是有點(diǎn)幻覺在;
GLM-4 厲害很多,又是聯(lián)網(wǎng)功能加了分。
GLM3:
GLM4:
3、數(shù)理計(jì)算
繼續(xù)上數(shù)學(xué)大題~
記 ABC 的內(nèi)角 A,B,C 的對邊分別為 a,b,c,已知
(1)若,求 B;(2)求的最小值.
上一代模型GLM-3 對三角函數(shù)還是不太擅長,兩道小題都沒能答對;
GLM-4 完成了第一小題,結(jié)合前面各家橫評,看來數(shù)學(xué)大題的第二小題始終是大模型的難關(guān)!
GLM3:
GLM4:
數(shù)學(xué)算累了,來點(diǎn)化學(xué)題換換腦子
問:足量銅與一定量濃硝酸反應(yīng),得到硝酸銅溶液和NO2、N2O4、NO的混合氣體,這些氣體與1.68L O2(標(biāo)準(zhǔn)狀況)混合后通入水中,所有氣體完全被水吸收生成硝酸。若向所得硝酸銅溶液中加入5 mol/L NaOH溶液至Cu2+恰好完全沉淀,則消耗NaOH溶液的體積是( )
(A)60 mL (B)45 mL (C)30 mL (D)15 mL
答:A
上一代模型GLM-3 給了一連串的解題步驟,結(jié)果還是算錯了;
GLM-4 解題調(diào)用了Python計(jì)算,解題思路清晰,確實(shí)做到了提升。
GLM3:
GLM4:
4、代碼解釋
繼續(xù)試一下一箭穿心~
上一代模型GLM-3不能在界面內(nèi)模擬,自我糾錯給了兩版代碼實(shí)際驗(yàn)證都不是需求圖形;
GLM-4對比美觀太多,穿心馬馬虎虎有個箭尾,好在復(fù)制代碼單獨(dú)跑效果也是一樣的。
GLM3:
GLM4:
換個新玩法,代碼畫一個能走的時鐘
用Turtle畫一個帶顯示星期功能,能按當(dāng)前時間動的時鐘
期望效果如下,顯示能動的表盤動畫
很尷尬,上一代模型GLM-3 把需求識別成普通的畫圖了;
GLM-4 受限無法直接運(yùn)行Turtle圖形庫,給出的代碼跑了一下,真不錯。
GLM3:
GLM4:
小結(jié):對比上一代模型,從這些基礎(chǔ)能力能看得出 GLM4 下了不少功夫,各方面均提升顯著??紤]到是三個月迭代的,這個速度也讓人印象很深刻了。
五、結(jié)論
綜合來看,GLM-4表現(xiàn)可圈可點(diǎn),全面對標(biāo)GPT的功能布局,可以用六邊形戰(zhàn)士來形容;豆包語義理解最強(qiáng),更適用在生活化問答場景;文心雖然在代碼生成解釋環(huán)節(jié)輸?shù)簦w實(shí)力不容小覷;GPT4的整體實(shí)力非常強(qiáng),但應(yīng)付國內(nèi)的生產(chǎn)生活場景,還是有點(diǎn)吃力。
GLM-4的新功能中,讓我印象深刻、幫助最大的,當(dāng)屬“數(shù)據(jù)分析”,對比同功能的GPT分析效果一致;還可以調(diào)教智能體,不會編程也能輕松擁有專屬大模型;聯(lián)網(wǎng)查詢幫助也很大,實(shí)際體驗(yàn)效果不凡。對比智譜AI上一代模型,GLM-4的各項(xiàng)基礎(chǔ)模型能力做到了全面強(qiáng)化,進(jìn)步明顯,在“數(shù)理計(jì)算”和“代碼生成”有質(zhì)的提升。
在我們之前的認(rèn)知里,ChatGPT都是絕對的王者,當(dāng)我們親自體驗(yàn)它時,卻發(fā)現(xiàn)在本地化表現(xiàn)并沒有達(dá)到高預(yù)期,對于中文普通用戶而言,我們使用ChatGPT仍有不小的門檻,“大模型元年”競爭如此激烈,在認(rèn)清差距、努力提升之余,不知道國產(chǎn)大模型交上的這份答卷,是否也合你的心意?
文章來自微信公眾號 “ 硅星人Pro ”