夜夜揉揉日日人人青青,偷窥精品在线视频,精品妇女一区二区三区,a√天堂98国产在线

<span id="lndpy"></span>
  • <small id="lndpy"><del id="lndpy"><rt id="lndpy"></rt></del></small><dfn id="lndpy"></dfn>
    <bdo id="lndpy"><delect id="lndpy"><legend id="lndpy"></legend></delect></bdo>
  • <address id="lndpy"><ul id="lndpy"><strike id="lndpy"></strike></ul></address>
    第五要素|大模型時(shí)代,數(shù)據(jù)治理與AI相互依存形成閉環(huán)

    第五要素|大模型時(shí)代,數(shù)據(jù)治理與AI相互依存形成閉環(huán)

    linwanting 2025-03-25 衛(wèi)生健康 1 次瀏覽 0個(gè)評論

    ·大模型和數(shù)據(jù)治理是一個(gè)閉環(huán),不斷迭代,兩者互相依存。目前沒有比大模型更加高效的數(shù)據(jù)分析和挖掘方法。反之,數(shù)據(jù)治理工作結(jié)束后,可以將這些更好更多的數(shù)據(jù)喂給大模型。

    ·“我們經(jīng)常講‘人與數(shù)據(jù)’的概念,即所有的數(shù)據(jù)都是人產(chǎn)生的,所有的問題也是人造成的,如果不把人的關(guān)系理順,數(shù)據(jù)是管理不好的。所以這個(gè)挑戰(zhàn)是之前的挑戰(zhàn)、現(xiàn)在的挑戰(zhàn),也是未來的挑戰(zhàn)?!?/u>

    【編者按】數(shù)據(jù),是繼土地、勞動(dòng)力、資本、技術(shù)四大生產(chǎn)要素之后的第五大生產(chǎn)要素,中國政府已提出要加快培育數(shù)據(jù)要素市場。隨著人工智能技術(shù)的飛速發(fā)展,大模型的開發(fā)更離不開高質(zhì)量的數(shù)據(jù)支持。在此背景下,澎湃科技(www.thepaper.cn)推出“第五要素——上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室數(shù)據(jù)要素產(chǎn)業(yè)化系列報(bào)道”,關(guān)注由上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室策劃的數(shù)據(jù)要素產(chǎn)業(yè)化系列論壇。第一期數(shù)據(jù)治理論壇主要聚焦數(shù)據(jù)治理的最新動(dòng)態(tài)和前沿趨勢,探索數(shù)據(jù)治理的規(guī)則與邊界。

    數(shù)據(jù)要素產(chǎn)業(yè)化系列論壇第一期“數(shù)據(jù)治理論壇”現(xiàn)場。

    “我們在進(jìn)行數(shù)據(jù)治理的過程中,遇到了兩個(gè)挑戰(zhàn):第一,數(shù)據(jù)多而分散,質(zhì)量參差不齊,數(shù)據(jù)治理難度大;第二,不同粒度的數(shù)據(jù)難以有效融合,行業(yè)知識和中觀數(shù)據(jù)(即行業(yè)、部門數(shù)據(jù))價(jià)值被低估?!?0月8日,在數(shù)據(jù)要素產(chǎn)業(yè)化系列論壇第一期“數(shù)據(jù)治理論壇”主旨演講環(huán)節(jié)中,螞蟻集團(tuán)網(wǎng)商銀行算法專家潘巖分享了網(wǎng)商銀行在數(shù)據(jù)治理過程中遇到的挑戰(zhàn)。

    光明食品集團(tuán)數(shù)據(jù)治理高級經(jīng)理雷曉川則從自己的經(jīng)驗(yàn)出發(fā)總結(jié)稱,數(shù)據(jù)治理單純依靠技術(shù)無法解決,其中管理和溝通占據(jù)70%以上的工作,特別是傳統(tǒng)行業(yè)大型集團(tuán)型企業(yè),IT系統(tǒng)差異大,業(yè)務(wù)和組織復(fù)雜度高,需要數(shù)據(jù)治理人員加倍耐心與各層級各條線溝通,深入理解業(yè)務(wù),以布道者和服務(wù)者的姿態(tài)逐步推進(jìn)數(shù)據(jù)治理的深入。

    香港科技大學(xué)潘奧托工程學(xué)教授及計(jì)算機(jī)科學(xué)與工程講座教授周曉方在其主旨演講中指出:“AI大模型能夠賦能數(shù)據(jù)質(zhì)量管理。雖然大模型本質(zhì)上是一個(gè)統(tǒng)計(jì)模型,很容易產(chǎn)生不穩(wěn)定性,數(shù)據(jù)庫要求可控和可解釋,但這個(gè)矛盾可以通過知識圖譜和向量數(shù)據(jù)庫來緩解?!?/p>

    中國人民大學(xué)數(shù)據(jù)工程與知識工程教育部重點(diǎn)實(shí)驗(yàn)室教授范舉則提到:“數(shù)據(jù)融合與清洗是數(shù)據(jù)有效利用全流程中的核心任務(wù)之一,也是未來大模型(LLM)可以賦能的一個(gè)重要領(lǐng)域?!睌?shù)據(jù)融合與清洗是指將多源多模態(tài)數(shù)據(jù)整合為統(tǒng)一的數(shù)據(jù)視圖,并發(fā)現(xiàn)與修復(fù)數(shù)據(jù)中可能的錯(cuò)誤(如數(shù)據(jù)不一致、缺失值等),從而提升數(shù)據(jù)的整體質(zhì)量,更好地釋放數(shù)據(jù)的價(jià)值。

    上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任、復(fù)旦大學(xué)教授肖仰華隨后主持圓桌環(huán)節(jié),專家學(xué)者和企業(yè)家更為深入地討論了數(shù)據(jù)治理當(dāng)前面臨的挑戰(zhàn),如何應(yīng)對這些挑戰(zhàn),以及大模型在其中可能發(fā)揮的作用。

    以下為圓桌實(shí)錄,有部分刪減。

    肖仰華:在數(shù)字經(jīng)濟(jì)和大模型快速發(fā)展的背景下,數(shù)據(jù)治理新的挑戰(zhàn)有哪些?

    阿里數(shù)據(jù)流通與治理平臺算法總監(jiān)及負(fù)責(zé)人劉洪:在我和我的團(tuán)隊(duì)以及業(yè)界的一些朋友交流后,我可能更悲觀地認(rèn)為,數(shù)據(jù)治理還是非常傳統(tǒng)。為什么傳統(tǒng)?因?yàn)?strong>不重視,而不重視的原因是我們對數(shù)據(jù)治理的認(rèn)知是有問題的,大家還是把數(shù)據(jù)治理等同于傳統(tǒng)的數(shù)據(jù)清洗。在這樣的認(rèn)知下,在公司里除非被迫,如老板要求服務(wù)器成本必須降,才會(huì)有人去做這件事。這就變成了一種硬性指標(biāo),缺乏原生的驅(qū)動(dòng)力,而是被動(dòng)去干“臟話累活”。如果把數(shù)據(jù)治理等價(jià)于臟活累活,那這個(gè)領(lǐng)域怎么可能有很好的發(fā)展呢?

    兩年前我們在思考,未來的數(shù)據(jù)治理應(yīng)該是什么樣的。我們當(dāng)時(shí)就提出來數(shù)據(jù)治理要安全合規(guī)、清晰透明,公平多樣、高質(zhì)高效,這四個(gè)最為根本。于是你會(huì)發(fā)現(xiàn),任何一個(gè)領(lǐng)域只要抓到最根本的這四點(diǎn),它永遠(yuǎn)都有很強(qiáng)的技術(shù)力,因?yàn)樗泻芏鄦栴}需要解決。當(dāng)你把這個(gè)事情想清楚,數(shù)據(jù)治理就不可能是一種很低價(jià)值的事情。

    螞蟻集團(tuán)網(wǎng)商銀行算法專家潘巖:我非常認(rèn)同劉老師的觀點(diǎn)。實(shí)際上我在具體項(xiàng)目里也發(fā)現(xiàn),比如老板給一個(gè)項(xiàng)目且要求今天做完,那么你一定不會(huì)想先去做數(shù)據(jù),首先想到的是先做出一個(gè)能上線的模型。所以對數(shù)據(jù)的不重視是數(shù)據(jù)治理的一個(gè)最大問題。另外,可能也是有心無力,尤其是大企業(yè),其歷史發(fā)展時(shí)間太長,以往的一些代碼產(chǎn)生的問題數(shù)據(jù)沒辦法丟掉,只能在其錯(cuò)誤數(shù)據(jù)基礎(chǔ)上不停迭代,但其實(shí)應(yīng)該是有辦法做好數(shù)據(jù)治理的。

    蜜度科技微熱點(diǎn)研究院副院長王昉:目前對企業(yè)來說,數(shù)據(jù)很多情況下都是封閉的,存儲(chǔ)在自身企業(yè)數(shù)據(jù)庫中,只服務(wù)于目標(biāo)客戶。但如果數(shù)據(jù)開源化,企業(yè)會(huì)面對更多的數(shù)據(jù),數(shù)據(jù)的流轉(zhuǎn)速度也會(huì)更快,所以在數(shù)據(jù)的安全性和合規(guī)性方面都有更高的要求。比如我們在加入大模型語料數(shù)據(jù)聯(lián)盟(今年7月,上海人工智能實(shí)驗(yàn)室等單位在世界人工智能大會(huì)開幕式上聯(lián)合發(fā)起的中國大模型語料數(shù)據(jù)聯(lián)盟宣布成立)時(shí),第一批計(jì)劃發(fā)布的開源文本數(shù)據(jù)集“蜜巢·花粉1.0”準(zhǔn)備了超過1億條數(shù)據(jù),但出于在安全性、合規(guī)性上更謹(jǐn)慎的考慮,經(jīng)過層層篩選審核,最終只發(fā)布了7000多萬條。此外在考慮數(shù)據(jù)開放時(shí)的一個(gè)新的挑戰(zhàn)是有需要前瞻性判斷,比如有些單點(diǎn)數(shù)據(jù)看上去沒有什么敏感性,但如果將批量數(shù)據(jù)結(jié)合起來看,如政務(wù)數(shù)據(jù),按照時(shí)間軸去看可能會(huì)透露一些重要的信息,國外現(xiàn)在有很多開源情報(bào)機(jī)構(gòu)會(huì)利用這些數(shù)據(jù)專門研究其他國家的政策或長期走勢。所以我們在開放數(shù)據(jù)的時(shí)候需要提前做出判斷。

    StartDT(奇點(diǎn)云)合伙人、資深戰(zhàn)略咨詢專家何夕:數(shù)據(jù)治理可以分四個(gè)層級來看,第一層是戰(zhàn)略問題,第二層是結(jié)構(gòu)問題,第三層是機(jī)制問題,最后才是技術(shù)問題。

    首先是戰(zhàn)略問題。現(xiàn)在大部分公司其實(shí)是以物質(zhì)生產(chǎn)為基礎(chǔ),即公司的所有框架都以物質(zhì)生產(chǎn)消費(fèi)為基礎(chǔ),比如車企基本就是研發(fā)、制造、流通、銷售?;ヂ?lián)網(wǎng)公司構(gòu)建的體系是以數(shù)據(jù)生產(chǎn)和消費(fèi)為基礎(chǔ),比如字節(jié)跳動(dòng)的整個(gè)商業(yè)模式以算法為中心,從設(shè)計(jì)算法,收集數(shù)據(jù),迭代算法,最終產(chǎn)出業(yè)績,從而將數(shù)據(jù)生成和消費(fèi)提升到戰(zhàn)略級部署。目前當(dāng)很多企業(yè)的戰(zhàn)略開始從以商品為中心轉(zhuǎn)到以客戶為中心時(shí),其面對的第一個(gè)戰(zhàn)略問題即——要采集什么數(shù)據(jù),要產(chǎn)出什么樣的結(jié)果。

    第二層是結(jié)構(gòu)問題,及業(yè)務(wù)、技術(shù)和組織的匹配性問題。在企業(yè),如果不能讓業(yè)務(wù)成績變成可衡量的內(nèi)容,不管治理得多好,企業(yè)也很難認(rèn)可你的工作。所以在企業(yè),大部分?jǐn)?shù)據(jù)治理的項(xiàng)目都是以給高管做駕駛艙為開端,這是一個(gè)可見的、典型的代表。其次技術(shù)上存在一個(gè)碎片化供給和碎片化消費(fèi)的問題。供給需求,即在對接系統(tǒng)時(shí),比如SAP(企業(yè)管理解決方案的軟件),每一家企業(yè)存在的問題都不一樣,前端對接數(shù)據(jù)源時(shí)也可能千奇百怪。因?yàn)樵谥袊泻芏鄻?biāo)準(zhǔn),所以很難對接數(shù)據(jù),每一家都有各種談判和商務(wù)性的問題。

    第三層是機(jī)制問題,即建立什么樣的標(biāo)準(zhǔn)和流程,用什么方式去實(shí)施管理動(dòng)作的問題;第四層是技術(shù)問題,即平臺需要具備什么樣的功能,需要在平臺上沉淀?;旧蠑?shù)據(jù)治理的復(fù)雜性就在于層層都有問題,層層都要解決,任何一層解決不好都會(huì)導(dǎo)致最后沒有產(chǎn)出。目前國內(nèi)數(shù)據(jù)治理做的不好還是因?yàn)椤安粔蛲础?,第一是?shù)據(jù)量太少,根據(jù)以往經(jīng)驗(yàn),一般公司只要數(shù)據(jù)用起來,數(shù)據(jù)的增長速度在一年漲一倍、兩年漲三倍、三年漲七到九倍的范圍。一旦數(shù)據(jù)開始增長,會(huì)出現(xiàn)存儲(chǔ)費(fèi)用高的問題,這時(shí)企業(yè)會(huì)意識到必須要做治理、降成本、做運(yùn)維。另外,數(shù)據(jù)治理還有一大挑戰(zhàn),是任期問題,即數(shù)據(jù)治理工作能否被長期堅(jiān)持。

    蘭迪律師事務(wù)所高級合伙人、蘭迪數(shù)字經(jīng)濟(jì)團(tuán)隊(duì)牽頭人丁學(xué)明:首先和大家分享3個(gè)數(shù)據(jù):30萬、1億、10億,去年7月,上海疫情解封后的第一個(gè)月,上海數(shù)據(jù)交易所的交易額是30萬人民幣,截至去年年底上海數(shù)據(jù)交易所一整年的數(shù)據(jù)交易額是1億人民幣,今年(2023)上海數(shù)據(jù)交易所的交易額目標(biāo)是10億。

    我們律所作為上海數(shù)據(jù)交易所的合規(guī)服務(wù)商,參與部分?jǐn)?shù)據(jù)產(chǎn)品掛牌的合規(guī)審核服務(wù),在我看來,從法律角度也存在一些阻礙數(shù)據(jù)市場要素發(fā)揮作用的瓶頸,下面我給大家簡單匯報(bào)一下。

    第一類,企業(yè)數(shù)據(jù)的合規(guī)流通利用,即企業(yè)運(yùn)營過程中產(chǎn)生的數(shù)據(jù)。這些數(shù)據(jù)如果做合規(guī)性檢查,只需判斷有沒有核心數(shù)據(jù)和重要數(shù)據(jù),如果沒有這樣的數(shù)據(jù)就可以進(jìn)行交易,因此來說,企業(yè)數(shù)據(jù)的流通利用法律障礙相對較少。但法律上的障礙少并不代表企業(yè)的交易意愿高,大部分企業(yè)不愿意交易自己的數(shù)據(jù)。仔細(xì)研究在上海數(shù)據(jù)交易所里完成交易數(shù)據(jù)的主體,他們大部分交易的不是自己的數(shù)據(jù),而是自己的能力。因?yàn)槟壳捌髽I(yè)最大的顧慮在于,數(shù)據(jù)是其核心競爭力的一個(gè)表現(xiàn),如果將核心競爭力拿出來交易,它們就失去了競爭力,本質(zhì)上是擔(dān)心目前的交易環(huán)境無法保證數(shù)據(jù)交易后的安全。

    第五要素|大模型時(shí)代,數(shù)據(jù)治理與AI相互依存形成閉環(huán)

    第二類是個(gè)人數(shù)據(jù)的合規(guī)流通利用。個(gè)人數(shù)據(jù)在很多行業(yè)具有較大價(jià)值,例如在廣告行業(yè)、金融行業(yè),個(gè)人數(shù)據(jù)可以用來精準(zhǔn)營銷,也能精準(zhǔn)風(fēng)控,比如任何一家貸款應(yīng)用程序(App)都會(huì)根據(jù)個(gè)人數(shù)據(jù)進(jìn)行額度設(shè)定。但我個(gè)人理解我們現(xiàn)有的個(gè)人信息保護(hù)法是不鼓勵(lì)個(gè)人數(shù)據(jù)的交易,為什么這么說?這涉及個(gè)人數(shù)據(jù)對外提供或者共享的合規(guī)要求。個(gè)人信息處理者如果收集個(gè)人信息并要將這些數(shù)據(jù)傳輸給另外一家合作企業(yè),需要得到平臺用戶的同意,但在實(shí)際的應(yīng)用場景中,如果要和多個(gè)公司做交易,改變生意伙伴,就需要平臺用戶頻繁授權(quán),這對用戶體驗(yàn)很不好。更重要的是,很多個(gè)人信息無法很便捷地接觸到授權(quán)場景,比如醫(yī)院,醫(yī)院刷卡的設(shè)備是無法彈窗提示要求授權(quán)的。

    第三類是公共數(shù)據(jù)或政務(wù)數(shù)據(jù)合規(guī)流通利用,有調(diào)查顯示,對整個(gè)數(shù)據(jù)交易市場來說,接近80%的優(yōu)質(zhì)數(shù)據(jù)在政府手中,這些優(yōu)質(zhì)數(shù)據(jù)才是市場上數(shù)據(jù)需求型企業(yè)特別想要的數(shù)據(jù),但直到目前為止政務(wù)數(shù)據(jù)的開放存在兩個(gè)問題。第一是立法的問題,即有沒有一個(gè)上位法(按照法的效力位階可分為三類,即上位法、下位法和同位法)來規(guī)定公共數(shù)據(jù)或政務(wù)數(shù)據(jù)的開放規(guī)則或者授權(quán)運(yùn)營規(guī)則,只有部分省市在小范圍的試點(diǎn),但目前沒有看到明顯的效果。第二是提供方式上,很多人期望政務(wù)數(shù)據(jù)在保護(hù)個(gè)人隱私和確保公共安全的前提下直接開放原始數(shù)據(jù),這樣才能刺激對數(shù)據(jù)的創(chuàng)新利用。而不是以模型、核驗(yàn)結(jié)果等產(chǎn)品和服務(wù)等形式向社會(huì)提供。但目前主流的觀點(diǎn)是,公共數(shù)據(jù)或政務(wù)數(shù)據(jù)要確?!霸紨?shù)據(jù)不出域、數(shù)據(jù)可用不可見”。所以政府?dāng)?shù)據(jù)到底應(yīng)該怎么用,有沒有一個(gè)廣泛接受的標(biāo)準(zhǔn),目前還沒有明確。

    全球數(shù)據(jù)要素50人論壇專家、DAMA數(shù)據(jù)管理專家馬歡:我覺得數(shù)據(jù)治理的挑戰(zhàn)不是新形勢下才出現(xiàn)的,而是一直以來都存在的。雖然數(shù)據(jù)治理經(jīng)常會(huì)被認(rèn)為有點(diǎn)基礎(chǔ),但其實(shí)治理這個(gè)詞本身是個(gè)非常高級的詞。治理和管理這兩個(gè)詞在國內(nèi)外都有層次上的差異。治理本身屬于管理的一部分,但我們現(xiàn)在把治理這個(gè)詞用得太頻繁且用錯(cuò)了語義,把一些基層管理數(shù)據(jù)的工作也叫做治理。所以聽的人也云里霧里,好像數(shù)據(jù)治理工作感覺很高級,但實(shí)際做的事情又很基礎(chǔ)。所以我覺得是對治理這個(gè)概念沒有理解清楚,首先我們需要把這個(gè)詞的概念扭轉(zhuǎn)過來才能更名正言順地談?wù)撨@件事。

    第二,治理這個(gè)詞本身關(guān)注的是人,具體的數(shù)據(jù)怎么管是在此基礎(chǔ)上再考慮的事情。我們經(jīng)常講“人與數(shù)據(jù)”的概念,即所有的數(shù)據(jù)都是人產(chǎn)生的,所有的問題也是人造成的,如果不把人的關(guān)系理順,數(shù)據(jù)是管理不好的。所以這個(gè)挑戰(zhàn)是之前的挑戰(zhàn)、現(xiàn)在的挑戰(zhàn),也是未來的挑戰(zhàn)。

    另外,剛才提到互聯(lián)網(wǎng)公司的成本治理,為什么他們會(huì)做這樣的成本治理,因?yàn)槠浯鎯?chǔ)的數(shù)據(jù)多、各種備份多,磁盤量大,如果數(shù)據(jù)用的次數(shù)多了,成本就會(huì)翻倍,所以要求降低成本,這個(gè)屬于業(yè)務(wù)上的驅(qū)動(dòng)。當(dāng)真的有這樣業(yè)務(wù)上的驅(qū)動(dòng)時(shí),才是真的在做數(shù)據(jù)治理。如果沒有業(yè)務(wù)驅(qū)動(dòng),大家只是在?;尨蚧茏樱袠I(yè)務(wù)驅(qū)動(dòng)了,需要降本增效的業(yè)務(wù)要求,才真的是治理和業(yè)務(wù)并行。這也是我們強(qiáng)調(diào)的一個(gè)理念,數(shù)據(jù)治理不是單獨(dú)的一件事情。

    上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室知識工場執(zhí)行副主任,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院研究員、博士生導(dǎo)師李直旭:在高校做數(shù)據(jù)治理研究需要注意兩方面的問題。第一是高校本身沒有真實(shí)的數(shù)據(jù)和場景。如果高校真正要做關(guān)于數(shù)據(jù)治理方面的研究,并且將研究成果落地,需要和企業(yè)合作,了解相關(guān)的業(yè)務(wù)以及內(nèi)部的邏輯。如果單純從研究層面說,目前很多高校的數(shù)據(jù)治理研究可能還停留在基于公開數(shù)據(jù)集的學(xué)術(shù)探索層面,但是企業(yè)的很多實(shí)際問題是在開源環(huán)境下并不容易解決的,更多的解決方案要在閉源環(huán)境下進(jìn)行。所以,當(dāng)前高校的數(shù)據(jù)治理還要和企業(yè)進(jìn)行更深度的合作。

    第二是數(shù)據(jù)治理人才的培養(yǎng)體系。數(shù)據(jù)治理其實(shí)是一個(gè)很綜合的問題,涉及到技術(shù)、管理、經(jīng)濟(jì)、法律等一系列學(xué)科知識,但是高校各個(gè)學(xué)科的培養(yǎng)體系是獨(dú)立的。目前高校也在提倡交叉培養(yǎng)、交叉融合,而數(shù)據(jù)治理這個(gè)方向本身也值得做一個(gè)交叉方向,為企業(yè)未來輸送更多的數(shù)據(jù)治理綜合性人才。

    肖仰華:數(shù)據(jù)治理難在其是系統(tǒng)工程,涉及企業(yè)的方方面面,包括技術(shù)、組織、戰(zhàn)略、結(jié)構(gòu)。目前以ChatGPT為首的大模型席卷一切,似乎給數(shù)據(jù)治理的相關(guān)研究帶來了一些希望。ChatGPT能夠發(fā)現(xiàn)數(shù)據(jù)中存在的隱私、合規(guī)等問題。那么人工智能和數(shù)據(jù)治理深度結(jié)合的過程中有哪些機(jī)遇和挑戰(zhàn)?

    劉洪:目前雖然GPT-4(OpenAI研發(fā)的大語言模型)的表現(xiàn)已經(jīng)驚艷世界,但它還有很多能力沒有被解鎖。大家雖然都知道大模型其實(shí)就是一種編碼器,把世界的知識編碼到一個(gè)信息體中,但如果想把如此龐大的東西釋放出來,實(shí)際上我們也不完全知道怎么去解碼,所以才出現(xiàn)各種指令微調(diào)、示例學(xué)習(xí)等方法。但很奇怪的一件事是,大家更多專注在怎么建大模型,卻很少聊怎么去用,或者說怎么解碼、利用這些大模型的能力,我認(rèn)為這是一個(gè)有問題的地方。甚至大家會(huì)覺得用一些方法從大模型里得到一些非常好的prompt(提示詞)從而對模型效果帶來極大的提升,這樣的工作只是一種trick(雕蟲小技),這種觀念我覺得是有問題的。大模型做出來就是這么一個(gè)信息體,并不需要滿世界的人都去做大模型,就應(yīng)該百花齊放地讓大家從中解碼出不一樣的東西,比如生成prompt用于自己的下游應(yīng)用,生成更高質(zhì)量的示例等。

    所以我覺得首先第一個(gè)觀念的轉(zhuǎn)變是從編碼到解碼。目前學(xué)術(shù)界也開始從大模型的建設(shè)轉(zhuǎn)向大模型的應(yīng)用或解碼方面,我覺得這樣會(huì)發(fā)現(xiàn)更多有價(jià)值、可以直接應(yīng)用的內(nèi)容。因?yàn)槟呐履茏龀鲆粋€(gè)千億萬億參數(shù)的大模型,對一個(gè)小公司來說,把這個(gè)方法傳給它,它也是做不起來的,但 “如何從GPT-4中解碼出你想要的東西”這個(gè)問題的答案對它的幫助遠(yuǎn)大于前者。可是現(xiàn)在學(xué)術(shù)界聊這個(gè)問題的場景不多,但這個(gè)東西對企業(yè)的價(jià)值又是極大的。

    第二個(gè)轉(zhuǎn)變是我們現(xiàn)在做多模態(tài)大模型時(shí)發(fā)現(xiàn)數(shù)據(jù)并不是越多越好。比如我們做的文生圖大模型,第一個(gè)階段大概花了將近3個(gè)月的時(shí)間,除了15天的大模型運(yùn)作時(shí)間,其他時(shí)間我們都是在做數(shù)據(jù)。之前可能覺得只要數(shù)據(jù)有圖片有文本就灌進(jìn)去,但這次我們在思考到底什么應(yīng)該喂進(jìn)去,什么不該喂給大模型,我們不希望“一顆老鼠屎壞了一鍋粥”。所以什么不該喂進(jìn)去是很重要的,而且是很難的。剛開始我們不知道數(shù)據(jù)不能全灌進(jìn)去,大模型是有不該吃的東西的,也不知道大模型需要什么樣的數(shù)據(jù)。但到底哪些數(shù)據(jù)是大模型不需要的,這不是一個(gè)技術(shù)問題,這涉及到法律、倫理、合規(guī)等方面,所以我們要在語料層面定義出大模型不該要的數(shù)據(jù)類型。并不是說圖片喂給大模型越多越好,因?yàn)橛行﹫D片是不好的,只會(huì)讓大模型畫出不好的東西。為了解決這個(gè)問題,我們要在數(shù)據(jù)治理層面找到好的數(shù)據(jù),強(qiáng)化好的數(shù)據(jù)。我覺得現(xiàn)在大模型對數(shù)據(jù)治理是一個(gè)比曾經(jīng)KPI(關(guān)鍵績效指標(biāo))更有力的推動(dòng)力,因?yàn)椴蛔鰯?shù)據(jù)治理大模型的效果可能就不會(huì)好,這是一種內(nèi)生的驅(qū)動(dòng)。另外我想強(qiáng)調(diào)一下,數(shù)據(jù)治理真的要發(fā)展,恰恰應(yīng)該是要從高校設(shè)立一個(gè)學(xué)科開始。

    潘巖:在實(shí)踐中我們發(fā)現(xiàn)大模型可以產(chǎn)出一些讓人驚喜的東西,比如一些認(rèn)知或超過你認(rèn)知的一些觀點(diǎn),但是對于客戶來說它還是不足的。所以我理解如果用大模型服務(wù)數(shù)據(jù)治理,關(guān)鍵在于能不能讓大模型理解我們自己的客戶。因?yàn)槠髽I(yè)數(shù)據(jù)是在企業(yè)自己的業(yè)務(wù)過程中產(chǎn)出的,它包含了這個(gè)業(yè)務(wù)背后的知識和一些約定俗成的東西,這些大模型未必能夠理解。所以我覺得大模型其實(shí)在世界知識需求較多的任務(wù)上表現(xiàn)較好,但在一些領(lǐng)域知識需求較多的任務(wù)上表現(xiàn)較差,這也是為什么我們要做一些額外工作。但這也涉及到另外一個(gè)問題,我們在做領(lǐng)域內(nèi)的監(jiān)督微調(diào)時(shí),本身也涉及到數(shù)據(jù)配比、數(shù)據(jù)治理這些問題,所以這像是一個(gè)循環(huán)。其實(shí)在大模型出現(xiàn)之前,吳恩達(dá)(斯坦福大學(xué)教授)也提出過一個(gè)概念“DCAI”,即以數(shù)據(jù)為中心的人工智能,他的視角不是研發(fā)一個(gè)很牛的模型架構(gòu),而是從數(shù)據(jù)出發(fā)找到模型的問題,或者研究一些樣本的配比。我覺得這和現(xiàn)在的情況有些異曲同工的地方,可以結(jié)合起來看,可能是未來的一個(gè)方向。

    李直旭:首先,大模型是最典型的以數(shù)據(jù)為中心的人工智能系統(tǒng)。從GPT-1到GPT-4在基本預(yù)訓(xùn)練技術(shù)層面并沒有特別大的變化,但是數(shù)據(jù)類型和數(shù)據(jù)量卻顯著劇增。所以大模型是一個(gè)以數(shù)據(jù)為中心的人工智能思想的集大成者。其次,大模型和數(shù)據(jù)治理是一個(gè)閉環(huán),是一個(gè)不斷迭代的過程。目前沒有比大模型更加高效的數(shù)據(jù)分析和挖掘方法,雖然大模型現(xiàn)在有缺陷,但是通過不斷提供更高質(zhì)量的數(shù)據(jù),可以讓大模型成為行業(yè)專家,更好地幫助人去理解行業(yè)數(shù)據(jù),做好行業(yè)數(shù)據(jù)的治理。反之,數(shù)據(jù)治理工作結(jié)束后,可以將這些更好更多的數(shù)據(jù)喂給大模型。所以人工智能和數(shù)據(jù)治理是互相依存的關(guān)系。

    肖仰華:數(shù)據(jù)治理不是簡單的技術(shù)問題,和各種生產(chǎn)要素、法律法規(guī)、標(biāo)準(zhǔn)制定、社會(huì)責(zé)任、國際合作、跨境流通等都有關(guān)聯(lián)。如何理解數(shù)據(jù)價(jià)值,以及制度設(shè)計(jì)和數(shù)據(jù)治理的關(guān)系?

    王昉:企業(yè)更關(guān)心數(shù)據(jù)價(jià)值。我們最開始提供給用戶的標(biāo)準(zhǔn)化服務(wù)是SaaS(軟件運(yùn)營服務(wù))服務(wù)和人工報(bào)告服務(wù),數(shù)據(jù)會(huì)作為基礎(chǔ)來輔助報(bào)告生成和圖表分析。目前越來越多的政企客戶需要非常精準(zhǔn)的數(shù)據(jù),所以需要我們對數(shù)據(jù)進(jìn)行處理再提供給客戶。比如一些政府機(jī)構(gòu)的數(shù)據(jù)無法公開,當(dāng)我們把一些開源數(shù)據(jù)推給他們后,他們會(huì)結(jié)合自己的數(shù)據(jù)進(jìn)行整合,然后放在服務(wù)器上形成一個(gè)綜合的數(shù)據(jù)中臺,這樣就可以為實(shí)際應(yīng)用場景做一些更落地的服務(wù),比如指揮大屏、數(shù)據(jù)流轉(zhuǎn)平臺等。這對于數(shù)據(jù)治理的要求也會(huì)更高,比如有些單位需要其轄區(qū)內(nèi)的數(shù)據(jù),但“轄區(qū)”的定義很廣泛,是數(shù)據(jù)源屬于轄區(qū)、事件屬于轄區(qū),還是微博定位轄區(qū),所以這對數(shù)據(jù)治理的精準(zhǔn)度有更高的要求。

    何夕:關(guān)于數(shù)據(jù)價(jià)值有兩個(gè)維度,第一是算成本,在企業(yè)內(nèi)部來說,數(shù)據(jù)治理被認(rèn)為“臟亂差”是因?yàn)楫a(chǎn)出不可見,無法算清楚投入和產(chǎn)出。當(dāng)然這個(gè)產(chǎn)出不僅僅是經(jīng)濟(jì)性的產(chǎn)出,現(xiàn)在不管是學(xué)界還是業(yè)界都沒辦法把這個(gè)問題解決得很好,我們在實(shí)踐中做的比較多的是建立一套質(zhì)量指標(biāo)和健康度指標(biāo),通過治理前后的對比,成熟度的提升,讓數(shù)據(jù)治理效果可見化。目前數(shù)據(jù)治理做的比較好的企業(yè)都有一個(gè)分析師團(tuán)隊(duì),專門負(fù)責(zé)把數(shù)據(jù)平臺里的所有元素做分析,看整個(gè)平臺可改進(jìn)的空間在哪里,分析投入產(chǎn)出比。

    第二,數(shù)據(jù)有個(gè)很重要的特性——沒有用之前不知道它有沒有用,這需要一個(gè)小的使用過程即POC(概念驗(yàn)證,是對某些想法較短而不完整的實(shí)現(xiàn),以證明其可行性)。但目前存在一個(gè)問題,公共交易背景下,誰來出POC的費(fèi)用?這涉及到很多投入問題,同樣也涉及到數(shù)據(jù)治理問題。比如有些企業(yè)在做數(shù)據(jù)變現(xiàn)時(shí),它的治理維度并不是其客戶所需要的維度,需要另一個(gè)方式的治理,但問題在于這個(gè)治理的費(fèi)用由誰出,而這些公共投入又難以算清楚。

    馬歡:在ChatGPT剛開放時(shí),我做了一個(gè)小實(shí)驗(yàn),問了它一個(gè)很小眾的問題,一開始它給的答案其實(shí)不是我想要的,我就跟它說它說的不對,然后再問它的時(shí)候它給的就是我要的答案了。所以當(dāng)大模型這樣一個(gè)東西出現(xiàn)時(shí),如果我們在使用它的時(shí)候沒有一個(gè)規(guī)范,就會(huì)像一些物品既能用作藥品也能是毒品一樣。如果沒有制度規(guī)范、沒有AI版權(quán)法之類的規(guī)范,那么大模型可能是人類毀滅的一個(gè)征兆,所以我覺得最先要做的事情是制度設(shè)計(jì)。

    本期數(shù)據(jù)治理論壇由上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室、中國數(shù)據(jù)管理協(xié)會(huì)(DAMA China)主辦,澳汰爾工程軟件(上海)有限公司、澎湃新聞以及DataFun社區(qū)提供支持。出品人分別為上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室知識工場執(zhí)行副主任、復(fù)旦大學(xué)青年研究員李直旭,全球數(shù)據(jù)要素50人論壇專家、DAMA數(shù)據(jù)管理專家馬歡,上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任、復(fù)旦大學(xué)教授肖仰華。 

     

    轉(zhuǎn)載請注明來自宜賓民心創(chuàng)傷骨科醫(yī)院有限責(zé)任公司,本文標(biāo)題:《第五要素|大模型時(shí)代,數(shù)據(jù)治理與AI相互依存形成閉環(huán)》

    百度分享代碼,如果開啟HTTPS請參考李洋個(gè)人博客
    每一天,每一秒,你所做的決定都會(huì)改變你的人生!
    Top
     江東村最新的消息  大選最新信息公布  抖音小品宋小寶最新版  人人網(wǎng)最新logo  高密最新的房價(jià)  astcam最新版  網(wǎng)商詐騙視頻最新  貴州考試最新信息  瑞子的最新視頻  華星煤業(yè)招聘官網(wǎng)最新  最新批的藥品  plantvszombies最新版下載  itfy最新信息  劉長遠(yuǎn)的最新視頻  在線招聘最新信息  保時(shí)捷最新版跑車旗艦  偏執(zhí)的浪漫最新  西湖兼職信息群最新  大慶小區(qū)招標(biāo)公告網(wǎng)最新  運(yùn)達(dá)環(huán)保招聘官網(wǎng)最新  最新行業(yè)信息網(wǎng)  犀牛8最新版  誰敢惹我最新版  慕名的最新視頻  最新的母親相冊  新的世界最新版無限時(shí)間  拉薩豐巢招聘信息最新  創(chuàng)收指標(biāo)最新版  波蘭裁員最新信息  刑法注釋最新版