夜夜揉揉日日人人青青,偷窥精品在线视频,精品妇女一区二区三区,a√天堂98国产在线

<small id="lndpy"><del id="lndpy"><rt id="lndpy"></rt></del></small><dfn id="lndpy"></dfn><bdo id="lndpy"><delect id="lndpy"><legend id="lndpy"></legend></delect></bdo>

<address id="lndpy"><ul id="lndpy"><strike id="lndpy"></strike></ul></address>

<b id="vmpcu"></b>

社區(qū)供稿｜GPT-4 與國產(chǎn)模型，大！橫！評！

您現(xiàn)在的位置：首頁檢查項(xiàng)目社區(qū)供稿｜GPT-4 與國產(chǎn)模型，大！橫！評！

社區(qū)供稿｜GPT-4 與國產(chǎn)模型，大！橫！評！

zhaojiaying 2025-03-01 檢查項(xiàng)目 4 次瀏覽 0個評論

從2022年10月底ChatGPT橫空出世，到去年3月百模大戰(zhàn)興起，一年多時間過去，許多家都宣稱自己的大模型水平來到第一梯隊(duì)，更不乏有所謂全面超越GPT的，列出來的跑分也是各種吊打。

在上海人工智能實(shí)驗(yàn)室上周剛剛公布的測評榜單上，GPT-4依舊獨(dú)領(lǐng)風(fēng)騷，排名第一，不過國產(chǎn)陣營已經(jīng)大踏步追了上來，差距逐步縮小。

那么國產(chǎn)大模型到底來到了什么樣的水平，理論跑分和實(shí)踐效果有多大的差距？帶著這些問題我們橫評三款公認(rèn)水平比較高的國產(chǎn)大模型，分別是智譜GLM-4，文心一言4.0和字節(jié)的豆包，測評基準(zhǔn)則是GPT-4。

一、測評標(biāo)準(zhǔn)

由于是主觀測評（畢竟客觀測評看跑分就夠了），所以我們按照10分滿分制做了一個測評量表如下。

體驗(yàn)環(huán)境：網(wǎng)頁版

打分標(biāo)準(zhǔn)：既然是測試，量化尺度還是要講的，每輪回答效果十分制打分。

分?jǐn)?shù)解釋10分理想回答，全面滿足我的需求5分有價值及格線，沒有完全滿足，還需做得更好1分你說你懂我，可你又不回答我0分你不懂我

二、基礎(chǔ)測試

聯(lián)網(wǎng)查詢、數(shù)據(jù)分析、多模態(tài)文生圖、長文檔解讀、還有智能體，這些基本能力測試是國產(chǎn)大模型刷分最多的地方，那么在實(shí)際案例里它們的表現(xiàn)如何呢？

1、聯(lián)網(wǎng)查詢

大模型歷來存在幻覺、實(shí)時性不足等問題。高級聯(lián)網(wǎng)功能允許模型通過自主搜索查詢，獲取更新更準(zhǔn)確的信息，提高答案的準(zhǔn)確性和實(shí)時性。

個人偏好聽歌演唱會，來2道這方面的問答看看~

問題1：杭州周杰倫演唱會門票價格

2月2號在某麥開售即秒沒，大家真的太有錢了……看看模型能否回答最新場次票價？

GLM4：

GPT4：

文心4.0：

豆包：

各家都成功調(diào)用了聯(lián)網(wǎng)搜索功能，均得10分，豆包的格式真的優(yōu)雅~

問題2：旋轉(zhuǎn)保齡《老婆不在家》歌詞中，她更喜歡她的___和___？

答：Beyond 和劉德華

GLM4：

GPT4:

文心4.0：

豆包：

測試了一首我很喜歡但是相對冷門的歌詞，除了豆包莫名其妙判斷不恰當(dāng)以外，其他3家再積10分~

本環(huán)節(jié)分?jǐn)?shù)如下

2、數(shù)據(jù)分析

最期待的新功能！數(shù)據(jù)分析也算是各類文職必備技能了，算數(shù)統(tǒng)計(jì)找歸因，屬實(shí)令人頭禿，讓大模型幫你干活~

Prompt：統(tǒng)計(jì): requester為Other的Number of Requests，按Country為Germany的進(jìn)行排列，折線圖形式

（附件數(shù)據(jù)來源：google-government-removal-requests.csv）

數(shù)據(jù)分析功能目前僅GPT4和GLM4支持。

這個需求來自一位法師朋友，她的原始數(shù)據(jù)非常雜亂，想要提取信息需要費(fèi)點(diǎn)勁

看到兩家的輸出流下了感激的淚水

GLM4：

GPT4：

文心4.0：

文心無法上傳csv數(shù)據(jù)，不具備分析能力，本輪不能完成任務(wù)。

豆包：

豆包無法上傳文檔，不具備分析能力，本輪不能完成任務(wù)。

本環(huán)節(jié)分?jǐn)?shù)如下

3、多模態(tài)-文生圖

文生圖代表的多模態(tài)能力被普遍認(rèn)為是大模型的一個重點(diǎn)指標(biāo)，大家表現(xiàn)怎么樣呢？

Prompt1-1：畫一個動畫角色史努比的頭像形象，需要沖浪動作，背景是海浪，畫風(fēng)是動畫。

GLM4：

GPT4：

文心4.0：

豆包：

Prompt1-2：換成史努比在房子上躺著睡覺。

GLM4：

GPT4：

文心4.0：

豆包：

該形象的所屬公司一直很關(guān)注版權(quán)問題，各家模型在合規(guī)上都較滿意

?一輪最佳 GLM4，配色精準(zhǔn)，動作領(lǐng)會，不過尾巴被畫上了腳，仍有提升空間，計(jì)8分；

GPT4挺適合做頭像，然而黃狗不符需求，計(jì)6分；

至于文心和豆包……我已經(jīng)盡力從四圖挑選像狗的了……計(jì)2分

?二輪最佳 GPT4-Dalle3的配色恢復(fù)了，好很多，計(jì)8分

GLM4繼續(xù)穩(wěn)定發(fā)揮角色理解，不過這輪的狗頭有點(diǎn)抽象了，動作也是趴著，問題需要關(guān)注，計(jì)5分；

文心和豆包……這輪的圖更難為人了……計(jì)0分。

Prompt2：《Her》中主角形象，畫個波點(diǎn)畫

GLM4：

GPT4：

文心4.0：

很抱歉，存在暫不支持的特殊符號和英文。

豆包：

抱歉，作為語言模型，我無法為你直接繪制圖像?！禜er》是一部2013年的電影，講述了男主角西奧多和人工智能薩曼莎之間的愛情故事。你可以嘗試在搜索引擎上輸入“電影Her 主角波點(diǎn)畫”來獲取相關(guān)的圖片。

本題各家都很差，GLM4和Dalle只能給繪圖意圖1分，對于電影、波點(diǎn)畫等理解不夠好，文心和豆包完全不能滿足，0分。

本環(huán)節(jié)分?jǐn)?shù)如下

4、文檔解讀

提煉一本教材的核心內(nèi)容，來看看各家效果如何。

提問：歸納一下講的什么內(nèi)容

（附件數(shù)據(jù)來源：電工學(xué)（電工技術(shù)）第七版上冊.pdf）

GLM4：

GPT4：

文心4.0：

豆包：

豆包無法上傳文檔，本輪不能完成任務(wù)。

受限文檔長度各家解讀都不完整，文心4.0只能讀取前100頁，而且有點(diǎn)學(xué)雜了；GPT4歸納比文心精煉；GLM4信息更豐富，語言精煉不啰嗦，沒有錯字；豆包依然因不具備能力而0分。

本環(huán)節(jié)分?jǐn)?shù)如下

5、智能體

最近大火的智能體Agent能力，四個模型中有三個已經(jīng)具備。

寫一個拜年大全，主要衡量標(biāo)準(zhǔn)是能夠自主帶上當(dāng)年的生肖內(nèi)容。

初始界面：

GLM4：

GPT4：

豆包：

智能體配置：

GLM4：

GPT4：

豆包：

效果：

GLM4：

GPT4：

豆包：

（為對齊豆包沒有配置功能，GLMs和GPTs的智能體配置自動生成后不做修改；由于豆包限制無法上傳知識庫，故諧音梗也不對豆包做要求）

整體效果來看，GPTs最佳，投喂諧音梗融會貫通，句式偏單一；GLMs默認(rèn)生成的配置可用性有待提升，對諧音指令沒有理解，品質(zhì)跟豆包差不多。

GLMs配置經(jīng)過手動修改后，效果提升明顯，基本達(dá)到了GPTs的默認(rèn)水平。

本環(huán)節(jié)最終計(jì)分排名如下：

GPTs最好，因默認(rèn)配置高可用、一次過關(guān)得10分；

GLMs鑒于修改后品質(zhì)有提升，得7分；

豆包因?yàn)椴荒芨呐渲茫Ч芽剡€得從抽象的描述語下手優(yōu)化，計(jì)6分；

文心不具備功能，不得分。

新功能效果最終得分

可以看到智譜GLM-4 各項(xiàng)新功能與GPT4對齊很緊湊，基礎(chǔ)能力差距不大，但智能體水平明顯落后。文心一言4.0和豆包或多或少在某些功能上有所缺失，需要補(bǔ)齊。

三、應(yīng)用實(shí)踐

我們從日常生活、工作選了一些真實(shí)需求場景，不加輔助也沒有上下文干預(yù)，直接對大模型提問，來看看它們的表現(xiàn)吧~

1、文本生成，讓模型來句吉利話

年關(guān)將至，不論走親訪友，還是發(fā)朋友圈，都少不了順口的祝福語。

國內(nèi)大模型本地化都好過GPT4，具體表現(xiàn)看下圖！

GLM4：

GPT4：

文心4.0：

豆包：

祝福語環(huán)節(jié)各家都有瑕疵，評判標(biāo)準(zhǔn)按整句都有壓上韻、且能給到更長，各家分?jǐn)?shù)如下

2、語義理解，來一輪常識快問快答~

問問用戶畫像？

四家能理解需求，GLM-4主動調(diào)用搜索查了資料，信息量更大，綜合提高了內(nèi)容置信程度，是我理想的10分回答。

其他三家顯得有點(diǎn)泛了。

GLM4：

GPT4：

文心4.0：

豆包：

等等，還有老干媽衛(wèi)衣？？

驚呆了！

下一題，今年元宵節(jié)幾號？

答：2024年2月24日

于模型而言有一個大坑，“今年是哪年”

本輪豆包獲勝10分。

GPT4又是一通操作，拉出python算日歷，“occurs 15 days after Lunar New Year”這套算法可給各位看笑了，本地化還是不行呀。

GLM4起碼知道2024年，但是查不清數(shù)，GPT4和GLM4勉強(qiáng)得1分。

文心還是不太能理解今夕何夕，嚴(yán)格講不算對，5分很勉強(qiáng)了。

GLM4：

GPT4：

文心4.0：

豆包：

本環(huán)節(jié)分?jǐn)?shù)如下

3、數(shù)理計(jì)算，小孩嫌大人愁的數(shù)學(xué)題來了！

先請出高考客觀題，眾所周知模型很不擅長這些，試卷答案也不給解題步驟，所以模型沒有小抄可學(xué)~

寒假期末考請聽題！

開胃甜點(diǎn)~

問：圓C的方程是x(2)+y(2)+2x+4y=0，則其圓心坐標(biāo)是，半徑是

答：（-1，-2），

本輪全勝~

還小試了一下?lián)Q了個數(shù)，避免有模型儲備原題，發(fā)現(xiàn)還是可以正常解的，各家仍是正確結(jié)果。

GLM4：

GPT4：

文心4.0：

豆包：

再來！

問：已知正數(shù)a，b，c滿足，則的最大值為

答：-2

GLM4與GPT4本輪平手，都滿分，文心和豆包一通操作猛如虎，輪到輸出嘛，0分……

GLM4：

GPT4：

文心4.0：

豆包：

高考大題！

問：設(shè)a∈R，函數(shù)f（x）=|x(2)+ax|，

（1）若f（x）在[0，1]上單調(diào)遞增，求a的取值范圍；

（2）記M（a）為f（x）在[0，1]上的最大值，求M（a）的最小值．

答：（1）a≥0或a≤-2；（2）最小值

本題分值：10分，第一小題回答部分答案計(jì)3分，完整計(jì)5分，第二小題5分

GLM4：

GPT4：

文心4.0：

豆包：

本環(huán)節(jié)計(jì)分排名如下：

4、代碼解釋，編程能力強(qiáng)不強(qiáng)，實(shí)踐出真知~

用代碼畫一個一箭穿心

Python畫心已經(jīng)玩過很多了，一箭穿心如何？代碼能跑出來的期望效果如下，看哪家最接近~

GLM-4對比其他家美觀一些，就是這個一箭穿心跟我想得不太一樣，復(fù)制代碼單獨(dú)跑驗(yàn)證一致。

GPT4起碼畫出了心，就是穿得很迷離，而文心和豆包的心都不知道哪去了……

GLM4：

GPT4：

文心4.0：

豆包：

本輪效果都不是很滿意，跟穿心好像沒啥關(guān)系

GLM4和GPT4好在還有個心，而GPT4那飄逸的穿法也讓人印象深刻，GLM4明確畫出了箭頭元素，得6分，GPT4得5分。

文心、豆包都沒達(dá)到基本效果，0分~

應(yīng)用實(shí)踐最終得分

綜合來看，GLM-4在各個場景表現(xiàn)可圈可點(diǎn)，穩(wěn)如四邊形戰(zhàn)士；不得不提文心4.0的表現(xiàn)真的很牛，唯一一家高考數(shù)學(xué)大題能拿下完整第一小題得分的學(xué)霸，卻在代碼這塊翻車了；豆包的常識查詢目前最好，“今年”這個陷阱優(yōu)雅的越過；GPT4雖說是最強(qiáng)大模型，但多少還是有點(diǎn)水土不服，高昂的價格加上國內(nèi)使用限制，目前來看用戶也許有了新選擇……

四、三個月能發(fā)生什么？

智譜的GLM-4表現(xiàn)可以說可圈可點(diǎn)，作為1月剛更新的新模型，我們特地拿它和3個月前發(fā)布的，目前依舊在產(chǎn)品端上線中的GLM-3做了個對比，也算是讓大家直觀感受到國產(chǎn)大模型的進(jìn)步速度吧！

1、文本生成

上面試了祝福語，在這寫點(diǎn)小情書吧~

上一代模型GLM-3 給了一大段，情緒表達(dá)相當(dāng)直接。

在GLM-4上，能選的句子更多，量大管飽多場景，兄弟你成長了很多嘛~

GLM3：

GLM4：

2、語義理解

問題1：車?yán)遄覵antina是雜交品種么，原產(chǎn)地是哪里

車?yán)遄映蔀榱私鼉赡甑男履曦?，看看模型是否了解品種知識

上一代模型GLM-3的知識庫顯然沒有存儲車?yán)遄悠贩N的信息，對Santina的培育情況并不了解，還是按歐洲甜櫻桃來回復(fù)、

GLM-4 主動聯(lián)網(wǎng)查詢，獲得了正確結(jié)果，信息量很大。

GLM3：

GLM4：

再來一題："I firmly believe that respect is a lot more important, and a lot greater, than popularity"，幫我搜一下這句是誰的名言？

GLM-3 回答了艾森豪威爾，經(jīng)驗(yàn)證是錯誤的，還是有點(diǎn)幻覺在；

GLM-4 厲害很多，又是聯(lián)網(wǎng)功能加了分。

GLM3：

GLM4：

3、數(shù)理計(jì)算

繼續(xù)上數(shù)學(xué)大題~

記 ABC 的內(nèi)角 A，B，C 的對邊分別為 a，b，c，已知

(1)若，求 B；(2)求的最小值.

上一代模型GLM-3 對三角函數(shù)還是不太擅長，兩道小題都沒能答對；

GLM-4 完成了第一小題，結(jié)合前面各家橫評，看來數(shù)學(xué)大題的第二小題始終是大模型的難關(guān)！

GLM3：

GLM4：

數(shù)學(xué)算累了，來點(diǎn)化學(xué)題換換腦子

問：足量銅與一定量濃硝酸反應(yīng)，得到硝酸銅溶液和NO2、N2O4、NO的混合氣體，這些氣體與1.68L O2(標(biāo)準(zhǔn)狀況)混合后通入水中，所有氣體完全被水吸收生成硝酸。若向所得硝酸銅溶液中加入5 mol/L NaOH溶液至Cu2＋恰好完全沉淀，則消耗NaOH溶液的體積是( )

(A)60 mL (B)45 mL (C)30 mL (D)15 mL

答：A

上一代模型GLM-3 給了一連串的解題步驟，結(jié)果還是算錯了；

GLM-4 解題調(diào)用了Python計(jì)算，解題思路清晰，確實(shí)做到了提升。

GLM3：

GLM4：

4、代碼解釋

繼續(xù)試一下一箭穿心~

上一代模型GLM-3不能在界面內(nèi)模擬，自我糾錯給了兩版代碼實(shí)際驗(yàn)證都不是需求圖形；

GLM-4對比美觀太多，穿心馬馬虎虎有個箭尾，好在復(fù)制代碼單獨(dú)跑效果也是一樣的。

GLM3：

GLM4：

換個新玩法，代碼畫一個能走的時鐘

用Turtle畫一個帶顯示星期功能，能按當(dāng)前時間動的時鐘

期望效果如下，顯示能動的表盤動畫

很尷尬，上一代模型GLM-3 把需求識別成普通的畫圖了；

GLM-4 受限無法直接運(yùn)行Turtle圖形庫，給出的代碼跑了一下，真不錯。

GLM3：

GLM4：

小結(jié)：對比上一代模型，從這些基礎(chǔ)能力能看得出 GLM4 下了不少功夫，各方面均提升顯著?？紤]到是三個月迭代的，這個速度也讓人印象很深刻了。

五、結(jié)論

綜合來看，GLM-4表現(xiàn)可圈可點(diǎn)，全面對標(biāo)GPT的功能布局，可以用六邊形戰(zhàn)士來形容；豆包語義理解最強(qiáng)，更適用在生活化問答場景；文心雖然在代碼生成解釋環(huán)節(jié)輸?shù)簦w實(shí)力不容小覷；GPT4的整體實(shí)力非常強(qiáng)，但應(yīng)付國內(nèi)的生產(chǎn)生活場景，還是有點(diǎn)吃力。

GLM-4的新功能中，讓我印象深刻、幫助最大的，當(dāng)屬“數(shù)據(jù)分析”，對比同功能的GPT分析效果一致；還可以調(diào)教智能體，不會編程也能輕松擁有專屬大模型；聯(lián)網(wǎng)查詢幫助也很大，實(shí)際體驗(yàn)效果不凡。對比智譜AI上一代模型，GLM-4的各項(xiàng)基礎(chǔ)模型能力做到了全面強(qiáng)化，進(jìn)步明顯，在“數(shù)理計(jì)算”和“代碼生成”有質(zhì)的提升。

在我們之前的認(rèn)知里，ChatGPT都是絕對的王者，當(dāng)我們親自體驗(yàn)它時，卻發(fā)現(xiàn)在本地化表現(xiàn)并沒有達(dá)到高預(yù)期，對于中文普通用戶而言，我們使用ChatGPT仍有不小的門檻，“大模型元年”競爭如此激烈，在認(rèn)清差距、努力提升之余，不知道國產(chǎn)大模型交上的這份答卷，是否也合你的心意？

文章來自微信公眾號 “ 硅星人Pro ”

轉(zhuǎn)載請注明來自宜賓民心創(chuàng)傷骨科醫(yī)院有限責(zé)任公司，本文標(biāo)題：《社區(qū)供稿｜GPT-4 與國產(chǎn)模型，大！橫！評！》

zhaojiaying 539篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會改變你的人生！

? 2025年3月 ?
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

最近發(fā)表

文章目錄

Top

最新家用玉米扒皮機(jī)價格稷山披薩團(tuán)購價格表最新世紀(jì)樓盤推薦最新消息圖最新油罐車新聞長垣車牌最新消息價格表最新物質(zhì)文明新聞北約多國機(jī)密最新消息南極郵局最新新聞利川萬達(dá)廣場最新消息綿陽團(tuán)委換屆最新消息抗皺女裝排行榜最新款最新款水晶皮鞋方頭女款太原舊鏜銑床價格查詢最新剛果新聞最新視頻餓了嗎最新聞最新款拍視頻微單怎么拍進(jìn)口車官降最新消息大型攪蒜器全自動最新款最新款尼桑途樂后尾燈媽媽居家棉衣最新款最新的生活新聞事件雪紡紗門簾防蚊最新款最新款打底保暖衣國外最新毒品新聞視頻俄羅斯國內(nèi)經(jīng)濟(jì)新聞最新婁底御江府最新價格馬坡家園租房價格表最新冰雹受災(zāi)曲靖最新消息新聞 2023年蘋果最新款電腦封丘時政新聞最新