·大模型和數(shù)據(jù)治理是一個(gè)閉環(huán),不斷迭代,兩者互相依存。目前沒有比大模型更加高效的數(shù)據(jù)分析和挖掘方法。反之,數(shù)據(jù)治理工作結(jié)束后,可以將這些更好更多的數(shù)據(jù)喂給大模型。
·“我們經(jīng)常講‘人與數(shù)據(jù)’的概念,即所有的數(shù)據(jù)都是人產(chǎn)生的,所有的問題也是人造成的,如果不把人的關(guān)系理順,數(shù)據(jù)是管理不好的。所以這個(gè)挑戰(zhàn)是之前的挑戰(zhàn)、現(xiàn)在的挑戰(zhàn),也是未來的挑戰(zhàn)?!?/u>
【編者按】數(shù)據(jù),是繼土地、勞動(dòng)力、資本、技術(shù)四大生產(chǎn)要素之后的第五大生產(chǎn)要素,中國政府已提出要加快培育數(shù)據(jù)要素市場。隨著人工智能技術(shù)的飛速發(fā)展,大模型的開發(fā)更離不開高質(zhì)量的數(shù)據(jù)支持。在此背景下,澎湃科技(www.thepaper.cn)推出“第五要素——上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室數(shù)據(jù)要素產(chǎn)業(yè)化系列報(bào)道”,關(guān)注由上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室策劃的數(shù)據(jù)要素產(chǎn)業(yè)化系列論壇。第一期數(shù)據(jù)治理論壇主要聚焦數(shù)據(jù)治理的最新動(dòng)態(tài)和前沿趨勢,探索數(shù)據(jù)治理的規(guī)則與邊界。
數(shù)據(jù)要素產(chǎn)業(yè)化系列論壇第一期“數(shù)據(jù)治理論壇”現(xiàn)場。
“我們在進(jìn)行數(shù)據(jù)治理的過程中,遇到了兩個(gè)挑戰(zhàn):第一,數(shù)據(jù)多而分散,質(zhì)量參差不齊,數(shù)據(jù)治理難度大;第二,不同粒度的數(shù)據(jù)難以有效融合,行業(yè)知識和中觀數(shù)據(jù)(即行業(yè)、部門數(shù)據(jù))價(jià)值被低估?!?0月8日,在數(shù)據(jù)要素產(chǎn)業(yè)化系列論壇第一期“數(shù)據(jù)治理論壇”主旨演講環(huán)節(jié)中,螞蟻集團(tuán)網(wǎng)商銀行算法專家潘巖分享了網(wǎng)商銀行在數(shù)據(jù)治理過程中遇到的挑戰(zhàn)。
光明食品集團(tuán)數(shù)據(jù)治理高級經(jīng)理雷曉川則從自己的經(jīng)驗(yàn)出發(fā)總結(jié)稱,數(shù)據(jù)治理單純依靠技術(shù)無法解決,其中管理和溝通占據(jù)70%以上的工作,特別是傳統(tǒng)行業(yè)大型集團(tuán)型企業(yè),IT系統(tǒng)差異大,業(yè)務(wù)和組織復(fù)雜度高,需要數(shù)據(jù)治理人員加倍耐心與各層級各條線溝通,深入理解業(yè)務(wù),以布道者和服務(wù)者的姿態(tài)逐步推進(jìn)數(shù)據(jù)治理的深入。
香港科技大學(xué)潘奧托工程學(xué)教授及計(jì)算機(jī)科學(xué)與工程講座教授周曉方在其主旨演講中指出:“AI大模型能夠賦能數(shù)據(jù)質(zhì)量管理。雖然大模型本質(zhì)上是一個(gè)統(tǒng)計(jì)模型,很容易產(chǎn)生不穩(wěn)定性,數(shù)據(jù)庫要求可控和可解釋,但這個(gè)矛盾可以通過知識圖譜和向量數(shù)據(jù)庫來緩解?!?/p>
中國人民大學(xué)數(shù)據(jù)工程與知識工程教育部重點(diǎn)實(shí)驗(yàn)室教授范舉則提到:“數(shù)據(jù)融合與清洗是數(shù)據(jù)有效利用全流程中的核心任務(wù)之一,也是未來大模型(LLM)可以賦能的一個(gè)重要領(lǐng)域?!睌?shù)據(jù)融合與清洗是指將多源多模態(tài)數(shù)據(jù)整合為統(tǒng)一的數(shù)據(jù)視圖,并發(fā)現(xiàn)與修復(fù)數(shù)據(jù)中可能的錯(cuò)誤(如數(shù)據(jù)不一致、缺失值等),從而提升數(shù)據(jù)的整體質(zhì)量,更好地釋放數(shù)據(jù)的價(jià)值。
上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任、復(fù)旦大學(xué)教授肖仰華隨后主持圓桌環(huán)節(jié),專家學(xué)者和企業(yè)家更為深入地討論了數(shù)據(jù)治理當(dāng)前面臨的挑戰(zhàn),如何應(yīng)對這些挑戰(zhàn),以及大模型在其中可能發(fā)揮的作用。
以下為圓桌實(shí)錄,有部分刪減。
肖仰華:在數(shù)字經(jīng)濟(jì)和大模型快速發(fā)展的背景下,數(shù)據(jù)治理新的挑戰(zhàn)有哪些?
阿里數(shù)據(jù)流通與治理平臺算法總監(jiān)及負(fù)責(zé)人劉洪:在我和我的團(tuán)隊(duì)以及業(yè)界的一些朋友交流后,我可能更悲觀地認(rèn)為,數(shù)據(jù)治理還是非常傳統(tǒng)。為什么傳統(tǒng)?因?yàn)?strong>不重視,而不重視的原因是我們對數(shù)據(jù)治理的認(rèn)知是有問題的,大家還是把數(shù)據(jù)治理等同于傳統(tǒng)的數(shù)據(jù)清洗。在這樣的認(rèn)知下,在公司里除非被迫,如老板要求服務(wù)器成本必須降,才會(huì)有人去做這件事。這就變成了一種硬性指標(biāo),缺乏原生的驅(qū)動(dòng)力,而是被動(dòng)去干“臟話累活”。如果把數(shù)據(jù)治理等價(jià)于臟活累活,那這個(gè)領(lǐng)域怎么可能有很好的發(fā)展呢?
兩年前我們在思考,未來的數(shù)據(jù)治理應(yīng)該是什么樣的。我們當(dāng)時(shí)就提出來數(shù)據(jù)治理要安全合規(guī)、清晰透明,公平多樣、高質(zhì)高效,這四個(gè)最為根本。于是你會(huì)發(fā)現(xiàn),任何一個(gè)領(lǐng)域只要抓到最根本的這四點(diǎn),它永遠(yuǎn)都有很強(qiáng)的技術(shù)力,因?yàn)樗泻芏鄦栴}需要解決。當(dāng)你把這個(gè)事情想清楚,數(shù)據(jù)治理就不可能是一種很低價(jià)值的事情。
螞蟻集團(tuán)網(wǎng)商銀行算法專家潘巖:我非常認(rèn)同劉老師的觀點(diǎn)。實(shí)際上我在具體項(xiàng)目里也發(fā)現(xiàn),比如老板給一個(gè)項(xiàng)目且要求今天做完,那么你一定不會(huì)想先去做數(shù)據(jù),首先想到的是先做出一個(gè)能上線的模型。所以對數(shù)據(jù)的不重視是數(shù)據(jù)治理的一個(gè)最大問題。另外,可能也是有心無力,尤其是大企業(yè),其歷史發(fā)展時(shí)間太長,以往的一些代碼產(chǎn)生的問題數(shù)據(jù)沒辦法丟掉,只能在其錯(cuò)誤數(shù)據(jù)基礎(chǔ)上不停迭代,但其實(shí)應(yīng)該是有辦法做好數(shù)據(jù)治理的。
蜜度科技微熱點(diǎn)研究院副院長王昉:目前對企業(yè)來說,數(shù)據(jù)很多情況下都是封閉的,存儲(chǔ)在自身企業(yè)數(shù)據(jù)庫中,只服務(wù)于目標(biāo)客戶。但如果數(shù)據(jù)開源化,企業(yè)會(huì)面對更多的數(shù)據(jù),數(shù)據(jù)的流轉(zhuǎn)速度也會(huì)更快,所以在數(shù)據(jù)的安全性和合規(guī)性方面都有更高的要求。比如我們在加入大模型語料數(shù)據(jù)聯(lián)盟(今年7月,上海人工智能實(shí)驗(yàn)室等單位在世界人工智能大會(huì)開幕式上聯(lián)合發(fā)起的中國大模型語料數(shù)據(jù)聯(lián)盟宣布成立)時(shí),第一批計(jì)劃發(fā)布的開源文本數(shù)據(jù)集“蜜巢·花粉1.0”準(zhǔn)備了超過1億條數(shù)據(jù),但出于在安全性、合規(guī)性上更謹(jǐn)慎的考慮,經(jīng)過層層篩選審核,最終只發(fā)布了7000多萬條。此外在考慮數(shù)據(jù)開放時(shí)的一個(gè)新的挑戰(zhàn)是有需要前瞻性判斷,比如有些單點(diǎn)數(shù)據(jù)看上去沒有什么敏感性,但如果將批量數(shù)據(jù)結(jié)合起來看,如政務(wù)數(shù)據(jù),按照時(shí)間軸去看可能會(huì)透露一些重要的信息,國外現(xiàn)在有很多開源情報(bào)機(jī)構(gòu)會(huì)利用這些數(shù)據(jù)專門研究其他國家的政策或長期走勢。所以我們在開放數(shù)據(jù)的時(shí)候需要提前做出判斷。
StartDT(奇點(diǎn)云)合伙人、資深戰(zhàn)略咨詢專家何夕:數(shù)據(jù)治理可以分四個(gè)層級來看,第一層是戰(zhàn)略問題,第二層是結(jié)構(gòu)問題,第三層是機(jī)制問題,最后才是技術(shù)問題。
首先是戰(zhàn)略問題。現(xiàn)在大部分公司其實(shí)是以物質(zhì)生產(chǎn)為基礎(chǔ),即公司的所有框架都以物質(zhì)生產(chǎn)消費(fèi)為基礎(chǔ),比如車企基本就是研發(fā)、制造、流通、銷售?;ヂ?lián)網(wǎng)公司構(gòu)建的體系是以數(shù)據(jù)生產(chǎn)和消費(fèi)為基礎(chǔ),比如字節(jié)跳動(dòng)的整個(gè)商業(yè)模式以算法為中心,從設(shè)計(jì)算法,收集數(shù)據(jù),迭代算法,最終產(chǎn)出業(yè)績,從而將數(shù)據(jù)生成和消費(fèi)提升到戰(zhàn)略級部署。目前當(dāng)很多企業(yè)的戰(zhàn)略開始從以商品為中心轉(zhuǎn)到以客戶為中心時(shí),其面對的第一個(gè)戰(zhàn)略問題即——要采集什么數(shù)據(jù),要產(chǎn)出什么樣的結(jié)果。
第二層是結(jié)構(gòu)問題,及業(yè)務(wù)、技術(shù)和組織的匹配性問題。在企業(yè),如果不能讓業(yè)務(wù)成績變成可衡量的內(nèi)容,不管治理得多好,企業(yè)也很難認(rèn)可你的工作。所以在企業(yè),大部分?jǐn)?shù)據(jù)治理的項(xiàng)目都是以給高管做駕駛艙為開端,這是一個(gè)可見的、典型的代表。其次技術(shù)上存在一個(gè)碎片化供給和碎片化消費(fèi)的問題。供給需求,即在對接系統(tǒng)時(shí),比如SAP(企業(yè)管理解決方案的軟件),每一家企業(yè)存在的問題都不一樣,前端對接數(shù)據(jù)源時(shí)也可能千奇百怪。因?yàn)樵谥袊泻芏鄻?biāo)準(zhǔn),所以很難對接數(shù)據(jù),每一家都有各種談判和商務(wù)性的問題。
第三層是機(jī)制問題,即建立什么樣的標(biāo)準(zhǔn)和流程,用什么方式去實(shí)施管理動(dòng)作的問題;第四層是技術(shù)問題,即平臺需要具備什么樣的功能,需要在平臺上沉淀?;旧蠑?shù)據(jù)治理的復(fù)雜性就在于層層都有問題,層層都要解決,任何一層解決不好都會(huì)導(dǎo)致最后沒有產(chǎn)出。目前國內(nèi)數(shù)據(jù)治理做的不好還是因?yàn)椤安粔蛲础?,第一是?shù)據(jù)量太少,根據(jù)以往經(jīng)驗(yàn),一般公司只要數(shù)據(jù)用起來,數(shù)據(jù)的增長速度在一年漲一倍、兩年漲三倍、三年漲七到九倍的范圍。一旦數(shù)據(jù)開始增長,會(huì)出現(xiàn)存儲(chǔ)費(fèi)用高的問題,這時(shí)企業(yè)會(huì)意識到必須要做治理、降成本、做運(yùn)維。另外,數(shù)據(jù)治理還有一大挑戰(zhàn),是任期問題,即數(shù)據(jù)治理工作能否被長期堅(jiān)持。
蘭迪律師事務(wù)所高級合伙人、蘭迪數(shù)字經(jīng)濟(jì)團(tuán)隊(duì)牽頭人丁學(xué)明:首先和大家分享3個(gè)數(shù)據(jù):30萬、1億、10億,去年7月,上海疫情解封后的第一個(gè)月,上海數(shù)據(jù)交易所的交易額是30萬人民幣,截至去年年底上海數(shù)據(jù)交易所一整年的數(shù)據(jù)交易額是1億人民幣,今年(2023)上海數(shù)據(jù)交易所的交易額目標(biāo)是10億。
我們律所作為上海數(shù)據(jù)交易所的合規(guī)服務(wù)商,參與部分?jǐn)?shù)據(jù)產(chǎn)品掛牌的合規(guī)審核服務(wù),在我看來,從法律角度也存在一些阻礙數(shù)據(jù)市場要素發(fā)揮作用的瓶頸,下面我給大家簡單匯報(bào)一下。
第一類,企業(yè)數(shù)據(jù)的合規(guī)流通利用,即企業(yè)運(yùn)營過程中產(chǎn)生的數(shù)據(jù)。這些數(shù)據(jù)如果做合規(guī)性檢查,只需判斷有沒有核心數(shù)據(jù)和重要數(shù)據(jù),如果沒有這樣的數(shù)據(jù)就可以進(jìn)行交易,因此來說,企業(yè)數(shù)據(jù)的流通利用法律障礙相對較少。但法律上的障礙少并不代表企業(yè)的交易意愿高,大部分企業(yè)不愿意交易自己的數(shù)據(jù)。仔細(xì)研究在上海數(shù)據(jù)交易所里完成交易數(shù)據(jù)的主體,他們大部分交易的不是自己的數(shù)據(jù),而是自己的能力。因?yàn)槟壳捌髽I(yè)最大的顧慮在于,數(shù)據(jù)是其核心競爭力的一個(gè)表現(xiàn),如果將核心競爭力拿出來交易,它們就失去了競爭力,本質(zhì)上是擔(dān)心目前的交易環(huán)境無法保證數(shù)據(jù)交易后的安全。
第二類是個(gè)人數(shù)據(jù)的合規(guī)流通利用。個(gè)人數(shù)據(jù)在很多行業(yè)具有較大價(jià)值,例如在廣告行業(yè)、金融行業(yè),個(gè)人數(shù)據(jù)可以用來精準(zhǔn)營銷,也能精準(zhǔn)風(fēng)控,比如任何一家貸款應(yīng)用程序(App)都會(huì)根據(jù)個(gè)人數(shù)據(jù)進(jìn)行額度設(shè)定。但我個(gè)人理解我們現(xiàn)有的個(gè)人信息保護(hù)法是不鼓勵(lì)個(gè)人數(shù)據(jù)的交易,為什么這么說?這涉及個(gè)人數(shù)據(jù)對外提供或者共享的合規(guī)要求。個(gè)人信息處理者如果收集個(gè)人信息并要將這些數(shù)據(jù)傳輸給另外一家合作企業(yè),需要得到平臺用戶的同意,但在實(shí)際的應(yīng)用場景中,如果要和多個(gè)公司做交易,改變生意伙伴,就需要平臺用戶頻繁授權(quán),這對用戶體驗(yàn)很不好。更重要的是,很多個(gè)人信息無法很便捷地接觸到授權(quán)場景,比如醫(yī)院,醫(yī)院刷卡的設(shè)備是無法彈窗提示要求授權(quán)的。
第三類是公共數(shù)據(jù)或政務(wù)數(shù)據(jù)合規(guī)流通利用,有調(diào)查顯示,對整個(gè)數(shù)據(jù)交易市場來說,接近80%的優(yōu)質(zhì)數(shù)據(jù)在政府手中,這些優(yōu)質(zhì)數(shù)據(jù)才是市場上數(shù)據(jù)需求型企業(yè)特別想要的數(shù)據(jù),但直到目前為止政務(wù)數(shù)據(jù)的開放存在兩個(gè)問題。第一是立法的問題,即有沒有一個(gè)上位法(按照法的效力位階可分為三類,即上位法、下位法和同位法)來規(guī)定公共數(shù)據(jù)或政務(wù)數(shù)據(jù)的開放規(guī)則或者授權(quán)運(yùn)營規(guī)則,只有部分省市在小范圍的試點(diǎn),但目前沒有看到明顯的效果。第二是提供方式上,很多人期望政務(wù)數(shù)據(jù)在保護(hù)個(gè)人隱私和確保公共安全的前提下直接開放原始數(shù)據(jù),這樣才能刺激對數(shù)據(jù)的創(chuàng)新利用。而不是以模型、核驗(yàn)結(jié)果等產(chǎn)品和服務(wù)等形式向社會(huì)提供。但目前主流的觀點(diǎn)是,公共數(shù)據(jù)或政務(wù)數(shù)據(jù)要確?!霸紨?shù)據(jù)不出域、數(shù)據(jù)可用不可見”。所以政府?dāng)?shù)據(jù)到底應(yīng)該怎么用,有沒有一個(gè)廣泛接受的標(biāo)準(zhǔn),目前還沒有明確。
全球數(shù)據(jù)要素50人論壇專家、DAMA數(shù)據(jù)管理專家馬歡:我覺得數(shù)據(jù)治理的挑戰(zhàn)不是新形勢下才出現(xiàn)的,而是一直以來都存在的。雖然數(shù)據(jù)治理經(jīng)常會(huì)被認(rèn)為有點(diǎn)基礎(chǔ),但其實(shí)治理這個(gè)詞本身是個(gè)非常高級的詞。治理和管理這兩個(gè)詞在國內(nèi)外都有層次上的差異。治理本身屬于管理的一部分,但我們現(xiàn)在把治理這個(gè)詞用得太頻繁且用錯(cuò)了語義,把一些基層管理數(shù)據(jù)的工作也叫做治理。所以聽的人也云里霧里,好像數(shù)據(jù)治理工作感覺很高級,但實(shí)際做的事情又很基礎(chǔ)。所以我覺得是對治理這個(gè)概念沒有理解清楚,首先我們需要把這個(gè)詞的概念扭轉(zhuǎn)過來才能更名正言順地談?wù)撨@件事。
第二,治理這個(gè)詞本身關(guān)注的是人,具體的數(shù)據(jù)怎么管是在此基礎(chǔ)上再考慮的事情。我們經(jīng)常講“人與數(shù)據(jù)”的概念,即所有的數(shù)據(jù)都是人產(chǎn)生的,所有的問題也是人造成的,如果不把人的關(guān)系理順,數(shù)據(jù)是管理不好的。所以這個(gè)挑戰(zhàn)是之前的挑戰(zhàn)、現(xiàn)在的挑戰(zhàn),也是未來的挑戰(zhàn)。
另外,剛才提到互聯(lián)網(wǎng)公司的成本治理,為什么他們會(huì)做這樣的成本治理,因?yàn)槠浯鎯?chǔ)的數(shù)據(jù)多、各種備份多,磁盤量大,如果數(shù)據(jù)用的次數(shù)多了,成本就會(huì)翻倍,所以要求降低成本,這個(gè)屬于業(yè)務(wù)上的驅(qū)動(dòng)。當(dāng)真的有這樣業(yè)務(wù)上的驅(qū)動(dòng)時(shí),才是真的在做數(shù)據(jù)治理。如果沒有業(yè)務(wù)驅(qū)動(dòng),大家只是在?;尨蚧茏樱袠I(yè)務(wù)驅(qū)動(dòng)了,需要降本增效的業(yè)務(wù)要求,才真的是治理和業(yè)務(wù)并行。這也是我們強(qiáng)調(diào)的一個(gè)理念,數(shù)據(jù)治理不是單獨(dú)的一件事情。
上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室知識工場執(zhí)行副主任,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院研究員、博士生導(dǎo)師李直旭:在高校做數(shù)據(jù)治理研究需要注意兩方面的問題。第一是高校本身沒有真實(shí)的數(shù)據(jù)和場景。如果高校真正要做關(guān)于數(shù)據(jù)治理方面的研究,并且將研究成果落地,需要和企業(yè)合作,了解相關(guān)的業(yè)務(wù)以及內(nèi)部的邏輯。如果單純從研究層面說,目前很多高校的數(shù)據(jù)治理研究可能還停留在基于公開數(shù)據(jù)集的學(xué)術(shù)探索層面,但是企業(yè)的很多實(shí)際問題是在開源環(huán)境下并不容易解決的,更多的解決方案要在閉源環(huán)境下進(jìn)行。所以,當(dāng)前高校的數(shù)據(jù)治理還要和企業(yè)進(jìn)行更深度的合作。
第二是數(shù)據(jù)治理人才的培養(yǎng)體系。數(shù)據(jù)治理其實(shí)是一個(gè)很綜合的問題,涉及到技術(shù)、管理、經(jīng)濟(jì)、法律等一系列學(xué)科知識,但是高校各個(gè)學(xué)科的培養(yǎng)體系是獨(dú)立的。目前高校也在提倡交叉培養(yǎng)、交叉融合,而數(shù)據(jù)治理這個(gè)方向本身也值得做一個(gè)交叉方向,為企業(yè)未來輸送更多的數(shù)據(jù)治理綜合性人才。
肖仰華:數(shù)據(jù)治理難在其是系統(tǒng)工程,涉及企業(yè)的方方面面,包括技術(shù)、組織、戰(zhàn)略、結(jié)構(gòu)。目前以ChatGPT為首的大模型席卷一切,似乎給數(shù)據(jù)治理的相關(guān)研究帶來了一些希望。ChatGPT能夠發(fā)現(xiàn)數(shù)據(jù)中存在的隱私、合規(guī)等問題。那么人工智能和數(shù)據(jù)治理深度結(jié)合的過程中有哪些機(jī)遇和挑戰(zhàn)?
劉洪:目前雖然GPT-4(OpenAI研發(fā)的大語言模型)的表現(xiàn)已經(jīng)驚艷世界,但它還有很多能力沒有被解鎖。大家雖然都知道大模型其實(shí)就是一種編碼器,把世界的知識編碼到一個(gè)信息體中,但如果想把如此龐大的東西釋放出來,實(shí)際上我們也不完全知道怎么去解碼,所以才出現(xiàn)各種指令微調(diào)、示例學(xué)習(xí)等方法。但很奇怪的一件事是,大家更多專注在怎么建大模型,卻很少聊怎么去用,或者說怎么解碼、利用這些大模型的能力,我認(rèn)為這是一個(gè)有問題的地方。甚至大家會(huì)覺得用一些方法從大模型里得到一些非常好的prompt(提示詞)從而對模型效果帶來極大的提升,這樣的工作只是一種trick(雕蟲小技),這種觀念我覺得是有問題的。大模型做出來就是這么一個(gè)信息體,并不需要滿世界的人都去做大模型,就應(yīng)該百花齊放地讓大家從中解碼出不一樣的東西,比如生成prompt用于自己的下游應(yīng)用,生成更高質(zhì)量的示例等。
所以我覺得首先第一個(gè)觀念的轉(zhuǎn)變是從編碼到解碼。目前學(xué)術(shù)界也開始從大模型的建設(shè)轉(zhuǎn)向大模型的應(yīng)用或解碼方面,我覺得這樣會(huì)發(fā)現(xiàn)更多有價(jià)值、可以直接應(yīng)用的內(nèi)容。因?yàn)槟呐履茏龀鲆粋€(gè)千億萬億參數(shù)的大模型,對一個(gè)小公司來說,把這個(gè)方法傳給它,它也是做不起來的,但 “如何從GPT-4中解碼出你想要的東西”這個(gè)問題的答案對它的幫助遠(yuǎn)大于前者。可是現(xiàn)在學(xué)術(shù)界聊這個(gè)問題的場景不多,但這個(gè)東西對企業(yè)的價(jià)值又是極大的。
第二個(gè)轉(zhuǎn)變是我們現(xiàn)在做多模態(tài)大模型時(shí)發(fā)現(xiàn)數(shù)據(jù)并不是越多越好。比如我們做的文生圖大模型,第一個(gè)階段大概花了將近3個(gè)月的時(shí)間,除了15天的大模型運(yùn)作時(shí)間,其他時(shí)間我們都是在做數(shù)據(jù)。之前可能覺得只要數(shù)據(jù)有圖片有文本就灌進(jìn)去,但這次我們在思考到底什么應(yīng)該喂進(jìn)去,什么不該喂給大模型,我們不希望“一顆老鼠屎壞了一鍋粥”。所以什么不該喂進(jìn)去是很重要的,而且是很難的。剛開始我們不知道數(shù)據(jù)不能全灌進(jìn)去,大模型是有不該吃的東西的,也不知道大模型需要什么樣的數(shù)據(jù)。但到底哪些數(shù)據(jù)是大模型不需要的,這不是一個(gè)技術(shù)問題,這涉及到法律、倫理、合規(guī)等方面,所以我們要在語料層面定義出大模型不該要的數(shù)據(jù)類型。并不是說圖片喂給大模型越多越好,因?yàn)橛行﹫D片是不好的,只會(huì)讓大模型畫出不好的東西。為了解決這個(gè)問題,我們要在數(shù)據(jù)治理層面找到好的數(shù)據(jù),強(qiáng)化好的數(shù)據(jù)。我覺得現(xiàn)在大模型對數(shù)據(jù)治理是一個(gè)比曾經(jīng)KPI(關(guān)鍵績效指標(biāo))更有力的推動(dòng)力,因?yàn)椴蛔鰯?shù)據(jù)治理大模型的效果可能就不會(huì)好,這是一種內(nèi)生的驅(qū)動(dòng)。另外我想強(qiáng)調(diào)一下,數(shù)據(jù)治理真的要發(fā)展,恰恰應(yīng)該是要從高校設(shè)立一個(gè)學(xué)科開始。
潘巖:在實(shí)踐中我們發(fā)現(xiàn)大模型可以產(chǎn)出一些讓人驚喜的東西,比如一些認(rèn)知或超過你認(rèn)知的一些觀點(diǎn),但是對于客戶來說它還是不足的。所以我理解如果用大模型服務(wù)數(shù)據(jù)治理,關(guān)鍵在于能不能讓大模型理解我們自己的客戶。因?yàn)槠髽I(yè)數(shù)據(jù)是在企業(yè)自己的業(yè)務(wù)過程中產(chǎn)出的,它包含了這個(gè)業(yè)務(wù)背后的知識和一些約定俗成的東西,這些大模型未必能夠理解。所以我覺得大模型其實(shí)在世界知識需求較多的任務(wù)上表現(xiàn)較好,但在一些領(lǐng)域知識需求較多的任務(wù)上表現(xiàn)較差,這也是為什么我們要做一些額外工作。但這也涉及到另外一個(gè)問題,我們在做領(lǐng)域內(nèi)的監(jiān)督微調(diào)時(shí),本身也涉及到數(shù)據(jù)配比、數(shù)據(jù)治理這些問題,所以這像是一個(gè)循環(huán)。其實(shí)在大模型出現(xiàn)之前,吳恩達(dá)(斯坦福大學(xué)教授)也提出過一個(gè)概念“DCAI”,即以數(shù)據(jù)為中心的人工智能,他的視角不是研發(fā)一個(gè)很牛的模型架構(gòu),而是從數(shù)據(jù)出發(fā)找到模型的問題,或者研究一些樣本的配比。我覺得這和現(xiàn)在的情況有些異曲同工的地方,可以結(jié)合起來看,可能是未來的一個(gè)方向。
李直旭:首先,大模型是最典型的以數(shù)據(jù)為中心的人工智能系統(tǒng)。從GPT-1到GPT-4在基本預(yù)訓(xùn)練技術(shù)層面并沒有特別大的變化,但是數(shù)據(jù)類型和數(shù)據(jù)量卻顯著劇增。所以大模型是一個(gè)以數(shù)據(jù)為中心的人工智能思想的集大成者。其次,大模型和數(shù)據(jù)治理是一個(gè)閉環(huán),是一個(gè)不斷迭代的過程。目前沒有比大模型更加高效的數(shù)據(jù)分析和挖掘方法,雖然大模型現(xiàn)在有缺陷,但是通過不斷提供更高質(zhì)量的數(shù)據(jù),可以讓大模型成為行業(yè)專家,更好地幫助人去理解行業(yè)數(shù)據(jù),做好行業(yè)數(shù)據(jù)的治理。反之,數(shù)據(jù)治理工作結(jié)束后,可以將這些更好更多的數(shù)據(jù)喂給大模型。所以人工智能和數(shù)據(jù)治理是互相依存的關(guān)系。
肖仰華:數(shù)據(jù)治理不是簡單的技術(shù)問題,和各種生產(chǎn)要素、法律法規(guī)、標(biāo)準(zhǔn)制定、社會(huì)責(zé)任、國際合作、跨境流通等都有關(guān)聯(lián)。如何理解數(shù)據(jù)價(jià)值,以及制度設(shè)計(jì)和數(shù)據(jù)治理的關(guān)系?
王昉:企業(yè)更關(guān)心數(shù)據(jù)價(jià)值。我們最開始提供給用戶的標(biāo)準(zhǔn)化服務(wù)是SaaS(軟件運(yùn)營服務(wù))服務(wù)和人工報(bào)告服務(wù),數(shù)據(jù)會(huì)作為基礎(chǔ)來輔助報(bào)告生成和圖表分析。目前越來越多的政企客戶需要非常精準(zhǔn)的數(shù)據(jù),所以需要我們對數(shù)據(jù)進(jìn)行處理再提供給客戶。比如一些政府機(jī)構(gòu)的數(shù)據(jù)無法公開,當(dāng)我們把一些開源數(shù)據(jù)推給他們后,他們會(huì)結(jié)合自己的數(shù)據(jù)進(jìn)行整合,然后放在服務(wù)器上形成一個(gè)綜合的數(shù)據(jù)中臺,這樣就可以為實(shí)際應(yīng)用場景做一些更落地的服務(wù),比如指揮大屏、數(shù)據(jù)流轉(zhuǎn)平臺等。這對于數(shù)據(jù)治理的要求也會(huì)更高,比如有些單位需要其轄區(qū)內(nèi)的數(shù)據(jù),但“轄區(qū)”的定義很廣泛,是數(shù)據(jù)源屬于轄區(qū)、事件屬于轄區(qū),還是微博定位轄區(qū),所以這對數(shù)據(jù)治理的精準(zhǔn)度有更高的要求。
何夕:關(guān)于數(shù)據(jù)價(jià)值有兩個(gè)維度,第一是算成本,在企業(yè)內(nèi)部來說,數(shù)據(jù)治理被認(rèn)為“臟亂差”是因?yàn)楫a(chǎn)出不可見,無法算清楚投入和產(chǎn)出。當(dāng)然這個(gè)產(chǎn)出不僅僅是經(jīng)濟(jì)性的產(chǎn)出,現(xiàn)在不管是學(xué)界還是業(yè)界都沒辦法把這個(gè)問題解決得很好,我們在實(shí)踐中做的比較多的是建立一套質(zhì)量指標(biāo)和健康度指標(biāo),通過治理前后的對比,成熟度的提升,讓數(shù)據(jù)治理效果可見化。目前數(shù)據(jù)治理做的比較好的企業(yè)都有一個(gè)分析師團(tuán)隊(duì),專門負(fù)責(zé)把數(shù)據(jù)平臺里的所有元素做分析,看整個(gè)平臺可改進(jìn)的空間在哪里,分析投入產(chǎn)出比。
第二,數(shù)據(jù)有個(gè)很重要的特性——沒有用之前不知道它有沒有用,這需要一個(gè)小的使用過程即POC(概念驗(yàn)證,是對某些想法較短而不完整的實(shí)現(xiàn),以證明其可行性)。但目前存在一個(gè)問題,公共交易背景下,誰來出POC的費(fèi)用?這涉及到很多投入問題,同樣也涉及到數(shù)據(jù)治理問題。比如有些企業(yè)在做數(shù)據(jù)變現(xiàn)時(shí),它的治理維度并不是其客戶所需要的維度,需要另一個(gè)方式的治理,但問題在于這個(gè)治理的費(fèi)用由誰出,而這些公共投入又難以算清楚。
馬歡:在ChatGPT剛開放時(shí),我做了一個(gè)小實(shí)驗(yàn),問了它一個(gè)很小眾的問題,一開始它給的答案其實(shí)不是我想要的,我就跟它說它說的不對,然后再問它的時(shí)候它給的就是我要的答案了。所以當(dāng)大模型這樣一個(gè)東西出現(xiàn)時(shí),如果我們在使用它的時(shí)候沒有一個(gè)規(guī)范,就會(huì)像一些物品既能用作藥品也能是毒品一樣。如果沒有制度規(guī)范、沒有AI版權(quán)法之類的規(guī)范,那么大模型可能是人類毀滅的一個(gè)征兆,所以我覺得最先要做的事情是制度設(shè)計(jì)。
本期數(shù)據(jù)治理論壇由上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室、中國數(shù)據(jù)管理協(xié)會(huì)(DAMA China)主辦,澳汰爾工程軟件(上海)有限公司、澎湃新聞以及DataFun社區(qū)提供支持。出品人分別為上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室知識工場執(zhí)行副主任、復(fù)旦大學(xué)青年研究員李直旭,全球數(shù)據(jù)要素50人論壇專家、DAMA數(shù)據(jù)管理專家馬歡,上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任、復(fù)旦大學(xué)教授肖仰華。