夜夜揉揉日日人人青青,偷窥精品在线视频,精品妇女一区二区三区,a√天堂98国产在线

<span id="lndpy"></span>
  • <small id="lndpy"><del id="lndpy"><rt id="lndpy"></rt></del></small><dfn id="lndpy"></dfn>
    <bdo id="lndpy"><delect id="lndpy"><legend id="lndpy"></legend></delect></bdo>
  • <address id="lndpy"><ul id="lndpy"><strike id="lndpy"></strike></ul></address>
    百川開(kāi)源第1個(gè)7B多模態(tài)大模型 Baichuan-Omni | 能夠同時(shí)分析圖像/視頻/音頻/文

    百川開(kāi)源第1個(gè)7B多模態(tài)大模型 Baichuan-Omni | 能夠同時(shí)分析圖像/視頻/音頻/文

    huamei 2025-03-30 衛(wèi)生健康 1 次瀏覽 0個(gè)評(píng)論

    突出多模態(tài)能力和交互體驗(yàn)的 GPT-4o 強(qiáng)調(diào)了其在實(shí)際應(yīng)用中的關(guān)鍵作用,然而它缺乏一個(gè)高性能的開(kāi)源對(duì)應(yīng)物。在本文中,作者介紹了 Baichuan-Omni,這是第一款開(kāi)源的 7B 多模態(tài)大語(yǔ)言模型(MLLM),能夠同時(shí)處理和分析圖像、視頻、音頻和文本的模態(tài),同時(shí)提供先進(jìn)的模態(tài)交互體驗(yàn)和強(qiáng)大性能。

    作者提出了一種有效的多模態(tài)訓(xùn)練模式,從 7B 模型開(kāi)始,經(jīng)過(guò)兩個(gè)階段的多模態(tài)對(duì)齊和多任務(wù)微調(diào),分別針對(duì)音頻、圖像、視頻和文本模態(tài)。這種方法使語(yǔ)言模型能夠有效地處理視覺(jué)和音頻數(shù)據(jù)。

    通過(guò)在各種全模態(tài)和多模態(tài)基準(zhǔn)測(cè)試上展示強(qiáng)大的性能,作者旨在將此貢獻(xiàn)作為開(kāi)源社區(qū)在推進(jìn)多模態(tài)理解和實(shí)時(shí)交互方面的競(jìng)爭(zhēng)性 Baseline 。

    github: https://github.com/westlake-baichuan-mllm/bc-omni

    人工智能領(lǐng)域正在迅速發(fā)展,尤其是在大語(yǔ)言模型(LLMs)的推動(dòng)下,以及隨后多模態(tài)大語(yǔ)言模型(MLLMs)的出現(xiàn),這標(biāo)志著機(jī)器如何理解和與世界的互動(dòng)方式發(fā)生了轉(zhuǎn)變。像GPT-4o這樣的MLLM的出現(xiàn),以其卓越的多模態(tài)能力和豐富的交互體驗(yàn),不僅突顯了這些技術(shù)在實(shí)際應(yīng)用中的不可或缺性,同時(shí)也為人類(lèi)與計(jì)算機(jī)交互設(shè)立了新的基準(zhǔn)。

    盡管MLLM取得了顯著的進(jìn)步,但當(dāng)前的開(kāi)源解決方案在多模態(tài)能力和用戶交互體驗(yàn)方面存在明顯的缺陷。這些缺陷極大地阻礙了這些模型在各種應(yīng)用中的更廣泛采用和有效性,從自然語(yǔ)言處理到計(jì)算機(jī)視覺(jué)以及更多領(lǐng)域。

    針對(duì)這些挑戰(zhàn),作者提出了一種全能多模態(tài)語(yǔ)言模型 Baichuan-Omni 以及一種多模態(tài)訓(xùn)練方案,旨在促進(jìn)高級(jí)多模態(tài)處理和自然用戶交互。Baichuan-Omni 的架構(gòu)如圖2所示。Baichuan-Omni 的方案基于三個(gè)核心組件:

    全模態(tài)數(shù)據(jù)構(gòu)造。 作者利用大量高質(zhì)量、全方位的數(shù)據(jù),結(jié)合開(kāi)源、合成和內(nèi)部標(biāo)注的數(shù)據(jù)集,訓(xùn)練Baichuan-Omni。在多模態(tài)對(duì)齊預(yù)訓(xùn)練階段,作者整理了包括圖像描述、交錯(cuò)數(shù)據(jù)、OCR數(shù)據(jù)和圖像文本數(shù)據(jù)的廣泛訓(xùn)練語(yǔ)料庫(kù)。對(duì)于音頻對(duì)齊,作者收集了開(kāi)源和內(nèi)部的數(shù)據(jù)集,用于自動(dòng)語(yǔ)音識(shí)別(ASR)和音頻問(wèn)答(AQA)。在視頻對(duì)齊領(lǐng)域,作者從開(kāi)源和內(nèi)部來(lái)源獲取視頻數(shù)據(jù)。在多模態(tài)監(jiān)督微調(diào)階段,作者匯編并合成了一個(gè)涵蓋200多個(gè)任務(wù),包括600,000個(gè)實(shí)例的廣泛數(shù)據(jù)集,涵蓋純文本、音頻、圖像文本、視頻文本和圖像音頻交互數(shù)據(jù)。

    多模態(tài)對(duì)齊 在多模態(tài)對(duì)齊的預(yù)訓(xùn)練階段,作者仔細(xì)地將各種模態(tài)的編碼器和對(duì)齊器對(duì)齊。最初,作者使用大量的圖像文本對(duì)齊數(shù)據(jù)集來(lái)訓(xùn)練視覺(jué)語(yǔ)言模型。這種基礎(chǔ)訓(xùn)練使作者能夠利用圖像文本訓(xùn)練期間開(kāi)發(fā)的視覺(jué)能力來(lái)進(jìn)一步訓(xùn)練視頻 Projector 。同時(shí),作者還利用自動(dòng)語(yǔ)音識(shí)別(ASR)數(shù)據(jù)來(lái)訓(xùn)練音頻語(yǔ)言模型。在這個(gè)堅(jiān)實(shí)的基礎(chǔ)之上,作者整合了高質(zhì)量圖像、音頻和視頻數(shù)據(jù),以實(shí)現(xiàn)全面的多模態(tài)對(duì)齊。

    多任務(wù)微調(diào)。 在多模態(tài)微調(diào)階段,作者利用一個(gè)由開(kāi)源、合成和內(nèi)部標(biāo)注數(shù)據(jù)組合而成的多任務(wù)跨模態(tài)交互訓(xùn)練語(yǔ)料庫(kù)。作者根據(jù)預(yù)訓(xùn)練模型是否已經(jīng)學(xué)習(xí)到事實(shí)知識(shí)的標(biāo)準(zhǔn)選擇數(shù)據(jù),用于最終的監(jiān)督微調(diào)(SFT)階段。在此階段,作者實(shí)現(xiàn)了一種打包技術(shù),將多個(gè)樣本拼接在一起,使用flash-attention2的cq_len進(jìn)行有效的樣本隔離。通過(guò)這種技術(shù),多個(gè)樣本可以在計(jì)算過(guò)程中正確隔離,防止不同樣本之間的數(shù)據(jù)混淆。這種方法加速了訓(xùn)練過(guò)程并優(yōu)化了內(nèi)存使用。

    本文的貢獻(xiàn)如下:

    1. 介紹了Baichuan-Omni,這是一個(gè)開(kāi)源、高性能的基礎(chǔ)性全模態(tài)模型,能夠同時(shí)處理文本、圖像、視頻和音頻輸入。它還支持包括英語(yǔ)和漢語(yǔ)在內(nèi)的多種語(yǔ)言的多語(yǔ)言支持。作者的訓(xùn)練框架包括一個(gè)全面的流水線,包括構(gòu)建全模態(tài)訓(xùn)練數(shù)據(jù)、多模態(tài)對(duì)齊預(yù)訓(xùn)練和多模態(tài)監(jiān)督微調(diào),特別注重增強(qiáng)全模態(tài)指令遵循能力。

    2. 探索了自然多模態(tài)人機(jī)交互的初期研究。作者的方法從預(yù)測(cè)音頻輸入邊界開(kāi)始,同時(shí) streaming 和編碼接收到的視覺(jué)數(shù)據(jù)為特征。這些特征由多模態(tài)大語(yǔ)言模型(MLLM)進(jìn)行動(dòng)態(tài)注意計(jì)算處理。在音頻輸入完成后,相應(yīng)的特征被輸入到MLLM進(jìn)行推理,從而便于處理音頻和視頻輸入。這種集成方法實(shí)現(xiàn)了實(shí)時(shí)處理并增強(qiáng)了系統(tǒng)的交互能力。

    3. 已將Baichuan-Omni模型、訓(xùn)練代碼和評(píng)估腳本公開(kāi)發(fā)布,旨在促進(jìn)研究社區(qū)內(nèi)的進(jìn)步。作為該領(lǐng)域的先驅(qū),作者仍致力于推動(dòng)多模態(tài)基礎(chǔ)模型的開(kāi)發(fā)及其互動(dòng)。

    2.1 高質(zhì)量的多模態(tài)數(shù)據(jù)

    為了訓(xùn)練具有強(qiáng)大能力的全模態(tài)模型,作者構(gòu)建了一個(gè)包含高質(zhì)量文本、圖像文本、視頻文本、音頻文本及其交互的廣泛跨模態(tài)數(shù)據(jù)集。

    圖像數(shù)據(jù)可分為幾種類(lèi)型:描述符圖像、交織圖像文本、OCR數(shù)據(jù)和圖表數(shù)據(jù)。從來(lái)源上看,它分為開(kāi)源數(shù)據(jù)和合成數(shù)據(jù)。對(duì)于開(kāi)源數(shù)據(jù),作者已經(jīng)收集了主要的開(kāi)源數(shù)據(jù)集,包括PIN-14M,MINT-1T,LAION-5B,OBELIC,等等,用于圖像語(yǔ)言分支的第一階段訓(xùn)練,以及Cauldron,Monkey,ArxivQA,TGDoc,MM-Self-Instruct (Train split) ,MMTable,等等,用于圖像語(yǔ)言分支的第二/第三階段訓(xùn)練。這些公開(kāi)可用的開(kāi)源數(shù)據(jù)集在作者數(shù)據(jù) Pipeline 中經(jīng)過(guò)一系列處理步驟和仔細(xì)的采樣技術(shù)。

    關(guān)于合成數(shù)據(jù),其目的是獲得更高質(zhì)量的數(shù)據(jù)以提升模型的性能。其中一部分?jǐn)?shù)據(jù)來(lái)源于書(shū)籍和論文,經(jīng)過(guò)解析生成交錯(cuò)圖像-文本、OCR數(shù)據(jù)和圖表數(shù)據(jù)。這部分?jǐn)?shù)據(jù)非常完整和專業(yè),使其成為高質(zhì)量和高知識(shí)密集度的數(shù)據(jù)。另一部分則涉及訓(xùn)練專門(mén)用于生成圖像描述的模型。這些描述從不同角度詳細(xì)描述圖像內(nèi)容,屬于高質(zhì)量描述數(shù)據(jù)。

    視頻數(shù)據(jù)集包括一系列公開(kāi)可用的資源,涵蓋了多種任務(wù),如視頻分類(lèi)、行為識(shí)別和時(shí)間定位等。視頻-文本來(lái)源可以分為兩大類(lèi):問(wèn)答數(shù)據(jù)(QA)和字幕數(shù)據(jù)。

    對(duì)于問(wèn)答數(shù)據(jù), 作者整合了:NExTVideo,該數(shù)據(jù)集在LLaVA-NExT中引入,以及ActivityNet-QA(訓(xùn)練拆分)。作者的字幕數(shù)據(jù)來(lái)源包括ShareGPT4Video,這是一個(gè)利用GPT-4生成豐富、上下文的視頻字幕的大規(guī)模數(shù)據(jù)集,以及WebVid 。為了進(jìn)一步豐富作者的數(shù)據(jù)集,作者使用了GPT-4o為YouTube上收集的視頻生成多樣化的字幕。

    每份數(shù)據(jù)集在作者的匯編中的采樣比例都根據(jù)這些數(shù)據(jù)集的相對(duì)大小進(jìn)行仔細(xì)確定。這種戰(zhàn)略方法確保了作者在最終數(shù)據(jù)集中對(duì)各種視頻類(lèi)型、任務(wù)和領(lǐng)域的平衡表示。

    音頻數(shù)據(jù)。 考慮到音頻數(shù)據(jù)的多樣性,作者從各種媒體模態(tài)中提取音頻,包括不同的錄制環(huán)境、語(yǔ)言、口音和說(shuō)話者。遵循之前工作的原則,作者提出音頻質(zhì)量的差異有助于增強(qiáng)語(yǔ)音理解能力。為了實(shí)現(xiàn)更復(fù)雜的分類(lèi)和篩選過(guò)程,作者實(shí)現(xiàn)了一個(gè)數(shù)據(jù)處理 Pipeline ,包括說(shuō)話者語(yǔ)音錄制、方言識(shí)別、口音識(shí)別、音效檢測(cè)和質(zhì)量評(píng)估。

    為了提高從數(shù)據(jù)集中生成的音頻文本對(duì)的質(zhì)量,作者利用了自家的ASR系統(tǒng),并結(jié)合了多個(gè)開(kāi)源模型來(lái)生成多個(gè)轉(zhuǎn)錄版本。這些生成的數(shù)據(jù)經(jīng)過(guò)模型集成策略進(jìn)行有效文本篩選和錯(cuò)誤校正后得到進(jìn)一步優(yōu)化。

    在處理文本語(yǔ)料庫(kù)時(shí),作者從各種領(lǐng)域收集了數(shù)據(jù),如網(wǎng)頁(yè)、書(shū)籍、學(xué)術(shù)論文、代碼等。遵循先前工作中提出的數(shù)據(jù)處理協(xié)議,作者實(shí)現(xiàn)了一個(gè)選擇過(guò)程,以提高數(shù)據(jù)集的多樣性和質(zhì)量。多樣性標(biāo)準(zhǔn)確保訓(xùn)練語(yǔ)料庫(kù)涵蓋廣泛的話題和語(yǔ)言風(fēng)格,以適應(yīng)各種應(yīng)用。高質(zhì)量處理可以去除文本數(shù)據(jù)中的冗余和噪音,提高知識(shí)密度。

    跨模態(tài)交互數(shù)據(jù) 為了增強(qiáng)模型跨模態(tài)交互能力,作者合成了一系列視覺(jué)-音頻-文本跨模態(tài)交互數(shù)據(jù),包括圖像-音頻-文本和視頻-音頻-文本數(shù)據(jù)集。對(duì)于圖像-文本數(shù)據(jù),作者將文本數(shù)據(jù)按1:3比例分割,使用文本轉(zhuǎn)語(yǔ)音(TTS)技術(shù)將初始四分之一文本轉(zhuǎn)換為音頻描述。作者的音頻涵蓋44種音色,確保音色豐富多樣。這種設(shè)置由任務(wù) Prompt 補(bǔ)充,如“請(qǐng)聽(tīng)以下描述圖像內(nèi)容的音頻。您的任務(wù)是在聽(tīng)后整合圖像補(bǔ)充更多信息”,旨在預(yù)測(cè)文本描述的后三分之三。對(duì)于視頻-文本數(shù)據(jù),作者直接從視頻中提取音頻作為跨模態(tài)音頻組件。

    2.2 多模態(tài)對(duì)齊預(yù)訓(xùn)練

    在本節(jié)中,作者將進(jìn)一步闡明圖像語(yǔ)言、視頻語(yǔ)言和音頻語(yǔ)言分支的預(yù)訓(xùn)練和對(duì)齊過(guò)程。

    2.2.1 圖像-語(yǔ)言分支

    作者使用Siglip-384px作為視覺(jué)編碼器,該編碼器處理一個(gè)384384的圖像輸入并生成182個(gè) Token ,通過(guò)一個(gè)由兩個(gè)層MLP和22卷積層組成的視覺(jué) Projector 實(shí)現(xiàn)。為了在保持高分辨率圖像復(fù)雜細(xì)節(jié)的同時(shí),將輸入圖像擴(kuò)展到任意分辨率,作者采用AnyRes [50],該方法將圖像分割成網(wǎng)格,并將下采樣圖像的特征拼接在一起以提供全局上下文。

    作者的圖像語(yǔ)言分支訓(xùn)練分為三個(gè)階段:

    • 第一階段:作者通過(guò)圖像描述生成任務(wù),使視覺(jué) Projector 在圖像表示和文本之間建立初始對(duì)齊。在這一階段,作者凍結(jié)了語(yǔ)言模型和視覺(jué)編碼器,只以的學(xué)習(xí)率訓(xùn)練視覺(jué) Projector 。

    • 第二階段:作者凍結(jié)LLM模型,并以較小的學(xué)習(xí)率分別訓(xùn)練 Projector (projector)和視覺(jué)編碼器(visual encoder)。除了通用的VQA任務(wù)外,作者還針對(duì)OCR和圖表任務(wù)專門(mén)合成了130k高質(zhì)量問(wèn)答數(shù)據(jù),以增強(qiáng)模型對(duì)抽象視覺(jué)理解的把握。此外,作者還引入了交錯(cuò)數(shù)據(jù)和圖像描述數(shù)據(jù),有助于保持并促進(jìn)圖像與文本表示之間的更好對(duì)齊,減輕在解凍視覺(jué)編碼器后,由于圖像特征空間變化而產(chǎn)生的對(duì)齊偏移。

    • 第三階段: 在第二階段的基礎(chǔ)上,作者解凍了LLM,并繼續(xù)以的學(xué)習(xí)率更新所有模型組件的參數(shù),以進(jìn)一步提高視覺(jué)語(yǔ)言性能。除了VQA和圖像-描述對(duì),作者還引入了交錯(cuò)數(shù)據(jù)和純文本數(shù)據(jù),以更好地保持LLM的原有能力。

    2.2.2 視頻-語(yǔ)言分支

    基于從圖像語(yǔ)言分支預(yù)訓(xùn)練中獲得的視覺(jué)能力,作者使用凍結(jié)的視覺(jué)編碼器(Siglip-384px,與圖像語(yǔ)言分支中使用的一致)和語(yǔ)言模型(LLM) Backbone 進(jìn)行視頻 Projector 的訓(xùn)練。這種訓(xùn)練過(guò)程采用低學(xué)習(xí)率以細(xì)化與語(yǔ)言模態(tài)的對(duì)齊。

    在訓(xùn)練階段,輸入視頻幀以每秒1幀的速度進(jìn)行采樣,最多為每視頻48幀。每個(gè)輸入幀都被重新縮放到最大分辨率為384768像素,以保持最佳的質(zhì)量和細(xì)節(jié)。此外,在視頻 Projector 之前應(yīng)用了一個(gè)22卷積層。這個(gè)卷積步驟有助于調(diào)節(jié)視頻 Token 序列的長(zhǎng)度,確保至少182個(gè) Token ,最多546個(gè) Token 。這種深思熟慮的配置在性能和效率之間取得了平衡,有助于有效地進(jìn)行模型訓(xùn)練,同時(shí)管理計(jì)算負(fù)載。

    而非立即使用純視頻-文本對(duì)進(jìn)行視頻語(yǔ)言分支的預(yù)訓(xùn)練,作者選擇了一種更為精細(xì)的兩階段方法。首先,作者利用圖像-文本預(yù)訓(xùn)練數(shù)據(jù)來(lái)增強(qiáng)模型的視覺(jué)理解能力。在建立了一個(gè)堅(jiān)實(shí)的基礎(chǔ)之后,作者逐步將混合圖像-文本對(duì)和視頻-文本對(duì)引入訓(xùn)練體系。這種策略已經(jīng)證明可以獲得更好的結(jié)果。通過(guò)逐漸增強(qiáng)模型的視覺(jué)能力,作者為視頻預(yù)訓(xùn)練流程提供了有價(jià)值的指導(dǎo),使模型更好地理解和整合視頻數(shù)據(jù)的語(yǔ)言復(fù)雜性。這種方法強(qiáng)調(diào)了采用綜合訓(xùn)練策略的重要性,該策略結(jié)合了多種數(shù)據(jù)模式以提高對(duì)齊和性能。

    2.2.3 音頻-語(yǔ)言分支

    音頻語(yǔ)言分支通過(guò)結(jié)合來(lái)自Whisper-large-v3模型的音頻編碼器和新引入的音頻 Projector ,擴(kuò)展了一個(gè)在視覺(jué)和視頻數(shù)據(jù)上預(yù)訓(xùn)練的LLM。

    音頻編碼器將音頻信號(hào)(30s,128 Mel-spectrum)處理成1280個(gè)通道的特征表示,而音頻 Projector (通常為線性 Projector或MLP)將其映射到LLM的嵌入空間。在投影之前,傳統(tǒng)上使用步長(zhǎng)為n的池化操作將音頻表示降采樣為更少的 Token (即幀)。然而,當(dāng)作者激進(jìn)地減少音頻 Token 的數(shù)量時(shí),這種簡(jiǎn)單的池化方法會(huì)導(dǎo)致音頻信息損失。在作者的方法中,作者用卷積-門(mén)控MLP(Conv-GMLP)替代池化,利用卷積層進(jìn)行降采樣以保留更多的音頻信息。

    圖5說(shuō)明了Conv-GMLP架構(gòu),其功能類(lèi)似于gated MLP,但用卷積層替代了線性層。這兩個(gè)卷積層將音頻表示的序列長(zhǎng)度減少了一個(gè)因子n,同時(shí)按比例擴(kuò)展了特征空間。在作者的 Projector 中,與Conv-GMLP一起使用的是殘差快捷方式,以實(shí)現(xiàn)更高效的梯度反向傳播。第4.5.3節(jié)的結(jié)果證明了,當(dāng)設(shè)置下采樣率3n時(shí),在音頻性能方面具有強(qiáng)大的魯棒性。

    在訓(xùn)練過(guò)程中,LLM保持凍結(jié),僅音頻編碼器和解碼器使用長(zhǎng)達(dá)音頻文本序列(最多4K Token )進(jìn)行訓(xùn)練。為了提高性能,采用余弦學(xué)習(xí)率調(diào)度器。

    2.2.4 圖像-視頻-音頻全方位對(duì)齊

    圖4的右側(cè)部分說(shuō)明了“Omni-Alignment”階段,該階段遵循了圖像語(yǔ)言、視頻語(yǔ)言和音頻語(yǔ)言分支的個(gè)體訓(xùn)練。在這個(gè)階段,所有模塊在混合高質(zhì)量圖像文本、視頻文本和音頻文本對(duì)的情況下一起進(jìn)行訓(xùn)練,以發(fā)展全面的多模態(tài)理解。

    2.3 多模態(tài)監(jiān)督微調(diào)

    在本節(jié)中,作者描述了旨在提高模型在各種任務(wù)上遵循復(fù)雜、多模態(tài)指令能力的多模態(tài)監(jiān)督微調(diào)過(guò)程。作者利用了一個(gè)多樣化的開(kāi)源、合成和內(nèi)部標(biāo)注數(shù)據(jù)集,涵蓋超過(guò)200個(gè)不同的任務(wù),總計(jì)約60萬(wàn)個(gè)對(duì),涉及文本、音頻、圖像文本、視頻文本和圖像音頻模態(tài)。

    文本數(shù)據(jù)。 文本數(shù)據(jù)涵蓋廣泛的任務(wù),包括知識(shí)問(wèn)答、數(shù)學(xué)、邏輯推理、代碼生成、文本創(chuàng)作、信息處理、基于人格的任務(wù)和安全相關(guān)數(shù)據(jù)。為了進(jìn)一步強(qiáng)化模型處理復(fù)雜、多步驟任務(wù)的能力,作者包括了具有復(fù)雜指令的專門(mén)數(shù)據(jù)集,其中一些數(shù)據(jù)集包含一個(gè)系統(tǒng)消息,用于構(gòu)建更復(fù)雜的場(chǎng)景。

    圖像理解數(shù)據(jù)。 對(duì)于涉及圖像理解的任務(wù),作者主要使用了vFLAN數(shù)據(jù)集,重點(diǎn)關(guān)注其指令遵循數(shù)據(jù)。鑒于部分樣本存在質(zhì)量問(wèn)題,作者采用基于損失的過(guò)濾方法來(lái)清理數(shù)據(jù)集:

    作者使用預(yù)訓(xùn)練模型計(jì)算了所有vFLAN英語(yǔ)指令樣例的損失,并將計(jì)算出的值擬合到高斯分布中。

    如果樣本的損失值超出 的范圍,則會(huì)被移除。1. 損失值小于 的樣本通常包含一些簡(jiǎn)單的問(wèn)題,例如 Prompt 和回復(fù)內(nèi)容幾乎相同的情況。2. 損失值大于 的樣本往往存在嚴(yán)重問(wèn)題,例如 Prompt -回復(fù)對(duì)被顛倒或者回復(fù)中存在錯(cuò)覺(jué)。

    經(jīng)過(guò)清理的vFLAN指令數(shù)據(jù)部分被翻譯成中文,然后進(jìn)行手動(dòng)重新標(biāo)注以確保高質(zhì)量的配對(duì)。同時(shí),作者還將一些其他開(kāi)源數(shù)據(jù)集集成到vFLAN中,包括synthdog-en/zh,手寫(xiě)OCR,街景OCR,參考地面和基于地面的描述對(duì)齊任務(wù),以及ImageInWords。這些數(shù)據(jù)集大部分已經(jīng)被翻譯成中文。對(duì)于ImageInWords,作者確保如果圖像包含可識(shí)別的實(shí)體,相應(yīng)的描述會(huì)明確引用該實(shí)體的名稱(例如,通過(guò)品種識(shí)別薩摩耶狗,而不僅僅是將其 Token 為“狗”)。

    盡管vFLAN涵蓋了191項(xiàng)任務(wù),但作者發(fā)現(xiàn)它在與指令類(lèi)型的多樣性方面存在不足。為了解決這個(gè)問(wèn)題,作者從作者的文本SFT數(shù)據(jù)集中采樣數(shù)據(jù),并將一些 Prompt 渲染成圖像,以增加基于圖像的指令的多樣性。此外,為了增強(qiáng)模型與圖像的數(shù)學(xué)推理能力,生成了一大批涉及圖像的多模態(tài)數(shù)學(xué)問(wèn)題數(shù)據(jù)集。

    在實(shí)驗(yàn)中,作者發(fā)現(xiàn)向模型中添加過(guò)多的外部世界知識(shí),這些知識(shí)模型本身并不知道,會(huì)導(dǎo)致性能回報(bào)下降。為了緩解這一問(wèn)題,從構(gòu)建的SFT數(shù)據(jù)集中排除未知數(shù)據(jù)。

    百川開(kāi)源第1個(gè)7B多模態(tài)大模型 Baichuan-Omni | 能夠同時(shí)分析圖像/視頻/音頻/文

    視頻理解數(shù)據(jù)。 視頻-文本數(shù)據(jù)主要來(lái)源于VideoInstruct100K數(shù)據(jù)集。盡管該數(shù)據(jù)集中的每個(gè)視頻包含多個(gè)指令,但指令往往相對(duì)同質(zhì),通常專注于簡(jiǎn)單的視頻描述。為了增強(qiáng)基于視頻的任務(wù)的多樣性,作者對(duì)每個(gè)視頻的指令進(jìn)行語(yǔ)義去重,并將數(shù)據(jù)集翻譯成中文,從而豐富了模型基于視頻的任務(wù)的種類(lèi)。

    音頻理解數(shù)據(jù)。 大部分音頻數(shù)據(jù)是通過(guò)TTS 4生成的, Prompt 來(lái)自純文本、圖像文本和視頻文本的數(shù)據(jù)集。為了確保合成的音頻質(zhì)量,作者使用ASR模型轉(zhuǎn)錄生成的音頻,并將轉(zhuǎn)錄與原始 Prompt 進(jìn)行比較。只保留那些準(zhǔn)確轉(zhuǎn)錄的音頻樣本作為最終音頻 Prompt 。為了進(jìn)一步豐富音頻數(shù)據(jù),作者還包括人類(lèi)錄制的音頻樣本,這些樣本捕捉了各種方言、口音和背景噪音。

    除了一般的QA任務(wù)外,作者還構(gòu)建了一個(gè)特定的ASR數(shù)據(jù)集,該數(shù)據(jù)集來(lái)源于開(kāi)源數(shù)據(jù)和內(nèi)部日志。為了提高訓(xùn)練效率,作者過(guò)濾掉了容易識(shí)別的樣本,而是專注于更具有挑戰(zhàn)性的音頻數(shù)據(jù)進(jìn)行有監(jiān)督的微調(diào)。

    3.1 語(yǔ)言性能

    3.1.1 評(píng)估基準(zhǔn)

    作者在4個(gè)全面的基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估,包括MMLU,CMMLU,AGIEval和C-Eval。MMLU包括57個(gè)獨(dú)特的任務(wù),包括不同領(lǐng)域的選擇題,包括人文科學(xué)、社會(huì)科學(xué)和硬科學(xué)。CMMLU代表了一個(gè)廣泛的評(píng)估框架,旨在評(píng)估LLM在漢語(yǔ)和文化背景下的復(fù)雜知識(shí)和推理能力。

    AGIEval是一個(gè)以人為中心的基準(zhǔn),用于評(píng)估基礎(chǔ)模型的通用認(rèn)知和問(wèn)題解決能力,這些測(cè)試是根據(jù)為人類(lèi)參與者設(shè)計(jì)的官方、公共和資格考試設(shè)計(jì)的。C-EVAL提供了一個(gè)全面的中文評(píng)估工具集,用于評(píng)估LLM在漢語(yǔ)背景下的高級(jí)知識(shí)和推理技能,涵蓋52個(gè)不同學(xué)科的13,948個(gè)選擇題,從人文科學(xué)到工程。作者使用零樣本測(cè)量進(jìn)行了所有評(píng)估。

    3.1.2 主要性能

    作者將Baichuan-Omni與最先進(jìn)的專有多模態(tài)模型進(jìn)行了比較,如Gemini 1.5 Pro,GPT-40,以及一系列具有競(jìng)爭(zhēng)力的開(kāi)源LLM和MLLM,如VITA,MAP-Neo,Qwen1.5-Chat,Llama3-Instruct和OLMo。作者在表1中列出了在全面基準(zhǔn)測(cè)試上的主要結(jié)果。

    如圖1所示,Baichuan-Omni在綜合基準(zhǔn)上顯著優(yōu)于開(kāi)源的、通用的純文本LLMs。與開(kāi)源的多模態(tài)模型VITA相比,Baichuan-Omni在中文基準(zhǔn)測(cè)試上取得了顯著優(yōu)勢(shì),例如CMMLU(72.2% vs 46.6%)和C-Eval(68.9% vs 56.7%),并且在AGIEval上(47.7% vs 46.2%)略勝一籌。

    3.2 圖像理解

    3.2.1 評(píng)估基準(zhǔn)

    作者在13個(gè)代表性的視覺(jué)語(yǔ)言基準(zhǔn)測(cè)試上評(píng)估Baichuan-Omni,包括MMBench-EN,MMBench-CN,M3GIA,SEEDBench,RealWorldQA,MMMU,MathVista,MME,MMVet,TextVQA,OCRBench,ChartQA,以及HallusionBench。

    為了確??芍貜?fù)的評(píng)估結(jié)果,作者使用VLMEvalKit對(duì)所有評(píng)估進(jìn)行統(tǒng)一。所有評(píng)估都采用零樣本方式進(jìn)行,遵循模型的原始設(shè)置以確保所有模型和基準(zhǔn)之間的公平和一致比較。

    3.2.2 主要性能

    作者將Baichuan-Omni與最先進(jìn)的專有多模態(tài)模型(如Gemini 1.5 Pro,以及GPT-4o)以及一系列具有競(jìng)爭(zhēng)力的開(kāi)源多模態(tài)模型(如VITA和Qwen2-VL)進(jìn)行比較。

    作者在表2和表3中列出了在VQA(視覺(jué)問(wèn)答)基準(zhǔn)測(cè)試上的主要結(jié)果和在MCQ(多選題和是非題)基準(zhǔn)測(cè)試上的結(jié)果。

    如圖2和圖3所示,Baichuan-Omni在多個(gè)視覺(jué)任務(wù)上全面超過(guò)了VITA-8*7b,后者具有12B激活參數(shù)。除了在VQA基準(zhǔn)測(cè)試和MCQ基準(zhǔn)測(cè)試上表現(xiàn)出色外,作者還展示了與開(kāi)源圖像專業(yè)模型(如MiniCPM-Llama3-V 2.5)相當(dāng)甚至更好的性能。

    具體來(lái)說(shuō),Baichuan-Omni在大多數(shù)VQA任務(wù)上超過(guò)了MiniCPM-Llama3-V 2.5,包括MMBench-CN, SEED-IMG, MME, HallusionBench和MMMU,這些任務(wù)需要專家級(jí)的感知和推理。然而,盡管在將額外音頻模式集成方面具有相對(duì)于Qwen2-VL的優(yōu)勢(shì),但Baichuan-Omni在圖像任務(wù)上的性能與Qwen2-VL之間仍然存在明顯的差距。此外,值得注意的是,除了Qwen2-VL之外,開(kāi)源和閉源模型的巨大差異仍然存在。

    3.3 視頻理解

    3.3.1 評(píng)估基準(zhǔn)

    作者對(duì)通用視頻理解任務(wù)(通用VQA)和開(kāi)放式視頻問(wèn)答(開(kāi)放式VQA)進(jìn)行了全面的評(píng)估,以全面評(píng)估Baichuan-Omni的視頻理解能力。

    對(duì)于一般的視頻理解任務(wù),選擇Perception-Test,MVBench,VideoMME,和EgoSchema用于長(zhǎng)篇視頻-語(yǔ)言理解。作者對(duì)所有基準(zhǔn)測(cè)試報(bào)告了top-1準(zhǔn)確率。對(duì)于VideoMME,作者在"w/o subs"設(shè)置下報(bào)告了結(jié)果。對(duì)于開(kāi)放式視頻問(wèn)答部分,作者選擇ActivityNet-QA和MSVD-QA作為評(píng)估基準(zhǔn)。作者使用GPT評(píng)估回答片段的質(zhì)量。具體來(lái)說(shuō),使用GPT-3.5-Turbo對(duì)答案的正確性進(jìn)行"Yes-or-No"決策,并從0到5提供一個(gè)評(píng)分。作者報(bào)告"Yes"響應(yīng)的百分比作為Accuracy,并報(bào)告平均評(píng)分作為Score。

    作者在進(jìn)行所有評(píng)估時(shí)采用零樣本方法,避免使用復(fù)雜的 Prompt 。此外,作者遵循原始模型的設(shè)置,關(guān)于(最大)幀數(shù)、幀采樣率等,以實(shí)現(xiàn)對(duì)所有模型和基準(zhǔn)的公平、一致的比較。

    3.3.2 主要性能

    作者將Baichuan-Omni與最先進(jìn)的多模態(tài)專有模型進(jìn)行了比較,例如Gemini 1.5 Pro,GPT 4V和GPT 4o,以及一系列具有競(jìng)爭(zhēng)力的開(kāi)源多模態(tài)模型,如VITA,Qwen2-VL,AnyGPT,VideoLLaMA 2,VideoChat2,LLaVA-NeXT-Video,以及Video-LLaVA。

    作者在表4中列出了在通用視頻理解基準(zhǔn)測(cè)試上的主要結(jié)果,并在表5中列出了在開(kāi)放式視頻問(wèn)答上的結(jié)果。

    表4顯示,Baichuan-Omni在Egoschema和MVBench等專有模型上展現(xiàn)了與競(jìng)爭(zhēng)對(duì)手相當(dāng)?shù)慕Y(jié)果,同時(shí)在開(kāi)源多模態(tài)模型上實(shí)現(xiàn)了強(qiáng)大的性能,這表明Baichuan-Omni具有全面的視頻理解能力。

    與VITA相比,具有約12億激活參數(shù)的MoE全模態(tài)LLM Baichuan-Omni(7B)在所有通用視頻問(wèn)答基準(zhǔn)測(cè)試上均優(yōu)于它,平均提高了約4%。此外,Baichuan-Omni在VideoLLaMA 2、VideoChat2、LLaVA-NeXT-Vide和Video-LLaVA等開(kāi)源模型上也表現(xiàn)出色。值得注意的是,Baichuan-Omni還在MVBench(43.7%)和Egoschema(55.6%)上超過(guò)了專有模型GPT 4V。

    關(guān)于開(kāi)放式視頻問(wèn)答基準(zhǔn)測(cè)試的結(jié)果。Open-ended VQA上的性能如表5所示。Baichuan-Omni在ActivityNet-QA和MSVD-QA的所有開(kāi)源模型上(包括最新的多模態(tài)模型VITA和Qwen2 VL)都展示了最先進(jìn)的性能(準(zhǔn)確率和分?jǐn)?shù)),并擊敗了專有模型Gemini 1.5 Pro(56.7%)在ActivityNet-QA上的表現(xiàn)。這些出色的結(jié)果表明,Baichuan-Omni在開(kāi)放式問(wèn)題回答方面也有效,即Baichuan-Omni更擅長(zhǎng)生成有信息和描述性的回答。

    3.4 音頻理解

    3.4.1 評(píng)估基準(zhǔn)

    為了驗(yàn)證Baichuan-Omni在音頻理解能力方面的表現(xiàn),作者在三個(gè)任務(wù)上的基準(zhǔn)測(cè)試評(píng)估結(jié)果如下:

    **自動(dòng)語(yǔ)音識(shí)別(ASR)。**這是音頻語(yǔ)言模型預(yù)訓(xùn)練的基本任務(wù),它直接將音頻轉(zhuǎn)換為文本。在ASR的一般場(chǎng)景下,作者在Fleurs中文(zh)和英語(yǔ)(en)測(cè)試集,以及WenetSpeech test_net數(shù)據(jù)集上報(bào)告結(jié)果。為了評(píng)估在更具挑戰(zhàn)性的ASR場(chǎng)景中的性能,作者還包括WenetSpeech test_meeting數(shù)據(jù)集和KeSpeech測(cè)試集的結(jié)果,這些數(shù)據(jù)集評(píng)估模型在’會(huì)議’和’中文方言’環(huán)境下的ASR能力。對(duì)于WenetSpeech,作者使用Word Error Rate(WER)和Character Error Rate(CER)作為評(píng)估指標(biāo),而對(duì)于其他數(shù)據(jù)集,只使用WER。

    語(yǔ)音轉(zhuǎn)文本(S2TT)的任務(wù)是將源語(yǔ)言的音頻信號(hào)翻譯成目標(biāo)語(yǔ)言。作者使用Covost2數(shù)據(jù)集的zh2en和en2zh子集,以BLEU分?jǐn)?shù)作為評(píng)估指標(biāo),來(lái)評(píng)估模型在中文和英文之間的S2TT性能。

    AIR-Bench的目標(biāo)是評(píng)估AI在遵循給定音頻指令方面的對(duì)話能力。作者在聊天基準(zhǔn)測(cè)試集(測(cè)試集)上評(píng)估聊天性能,使用評(píng)分作為指標(biāo)。

    3.4.2 主要性能

    對(duì)比了Baichuan-Omni與最先進(jìn)的 Baseline ,包括ASR、S2TT和SER任務(wù),包括最近最先進(jìn)的音頻語(yǔ)言模型Qwen2-Audio-Instruct和大型多模態(tài)語(yǔ)言模型VITA。此外,還展示了經(jīng)典預(yù)訓(xùn)練音頻語(yǔ)言模型Whisper-large-v3在ASR任務(wù)上的性能,以及SALMONN在S2TT任務(wù)上的性能。

    在ASR基準(zhǔn)測(cè)試上的結(jié)果。 Baichuan-Omni在表6中展示了強(qiáng)大的音頻轉(zhuǎn)錄能力。Baichuan-Omni主要針對(duì)中文語(yǔ)料庫(kù)。

    在整體的中文ASR場(chǎng)景中,與Qwen2-Audio-Instruct相比,Baichuan-Omni在Fleurs測(cè)試-zh子集上具有2.0%的WER(2.6%的CER)優(yōu)勢(shì),并在與Qwen2-Audio-Instruct的WenetSpeech測(cè)試的比較中,實(shí)現(xiàn)了4.1%的WER(4.2%的CER)提升。WenetSpeech上的評(píng)估結(jié)果持續(xù)表明,Baichuan-Omni在VITA之上具有優(yōu)勢(shì)。Baichuan-Omni在VITA的CER性能上實(shí)現(xiàn)了近50%的改進(jìn),無(wú)論是測(cè)試(7.1% v.s 12.2%),還是測(cè)試_meeting(8.9% v.s 16.5%)子集。

    在更具挑戰(zhàn)性的中文方言基準(zhǔn),KeSpeech上,Baichuan-Omni保持全面領(lǐng)先,平均CER為所有方言的6.7%,優(yōu)于其他方言。值得注意的是,盡管Baichuan-Omni在中文音頻轉(zhuǎn)錄方面表現(xiàn)出色,但Baichuan-Omni在英語(yǔ)ASR上也保持了強(qiáng)大的通用性能。作者實(shí)現(xiàn)了4.7%的WER,比Qwen2-Audio-Instruct高出11%的WER。

    **S2TT和AIR-Bench基準(zhǔn)上的結(jié)果。**除了ASR之外,Baichuan-Omni在S2TT和SER任務(wù)上都表現(xiàn)出色。評(píng)估結(jié)果匯總在表7中。

    值得注意的是,在從英語(yǔ)到中文的Covost-2 en2zh測(cè)試集上翻譯時(shí),Baichuan-Omni相對(duì)于Qwen2-Audio-Instruct大約提高了7個(gè)BLEU分。對(duì)于反向翻譯,即從中文到英語(yǔ),作者在Covost-2 zh2en測(cè)試集上的性能與Qwen2-Audio-Instruct相當(dāng),展示了Baichuan-Omni生成逼真人類(lèi)語(yǔ)音和聲音的優(yōu)越能力。在AirBench上,Baichuan-Omni在語(yǔ)音和聲音方面分別獲得了7.42和7.26分,優(yōu)于Qwen2-Audio-Instruct,顯示出Baichuan-Omni在生成逼真人類(lèi)語(yǔ)音和聲音方面的優(yōu)勢(shì)。

    3.5 消融研究

    3.5.1 圖像-語(yǔ)言分支

    視覺(jué)編碼器。 為了比較Baichuan-Omni中不同視覺(jué)編碼器的性能,作者在各種參數(shù)大小、輸入分辨率和輸出 Token 計(jì)數(shù)不同的視覺(jué)編碼器上進(jìn)行了實(shí)驗(yàn),總共選擇了五種主流視覺(jué)編碼器:OpenAI的CLIP系列,Google的Siglip系列,蘋(píng)果的DFN系列,OpenGVLab的InternViT系列,以及BAI的EVA系列,總共14個(gè)模型。

    所有模型都使用對(duì)比學(xué)習(xí)進(jìn)行訓(xùn)練,參數(shù)范圍從300M(ViT-L)到18B。視覺(jué)編碼器在預(yù)訓(xùn)練期間的訓(xùn)練數(shù)據(jù)使用從400M到10B,輸入分辨率從224224到448448,輸出 Token 計(jì)數(shù)從256到1024。所有比較實(shí)驗(yàn)在相同的實(shí)驗(yàn)條件下進(jìn)行,具體使用批量大小為8,IFT訓(xùn)練數(shù)據(jù)(數(shù)據(jù)比設(shè)置為Caption: Interleaved數(shù)據(jù): Pure text為0.45: 0.45: 0.1)。

    如圖8所示,雖然提高分辨率確實(shí)會(huì)導(dǎo)致性能提升(eva-448與eva-224,InternViT-6B-224px與InternViT-6B-448px),但編碼器參數(shù)的數(shù)量與指標(biāo)之間并沒(méi)有直接關(guān)系。

    總體而言,siglip-so400m-patch14-384 獲得了最高的平均分?jǐn)?shù),并在六項(xiàng)任務(wù)中的四項(xiàng)中表現(xiàn)出色,特別是在OCR方面表現(xiàn)尤為出色。考慮到這些因素以及效率問(wèn)題,作者最終選擇了siglip-so400m-patch14-384作為Baichuan-Omni的視覺(jué)編碼器。

    作者進(jìn)一步研究了在模型中使用AnyRes對(duì)視覺(jué)語(yǔ)言性能的影響。作者發(fā)現(xiàn),與固定輸入384像素相比,使用AnyRes可以顯著提高性能,尤其是在依賴于圖像細(xì)節(jié)的任務(wù)上,如視覺(jué)文檔理解,如表9所示。

    關(guān)于Projector,作者比較了以下方法:

    (1) MLP:直接通過(guò)一個(gè)兩層MLP,使尺寸與LLM相匹配,不減少圖像 Token 的數(shù)量。

    (2) C-abs:通過(guò)兩個(gè)卷積層和一個(gè)池化層,使尺寸與LLM相匹配,根據(jù)需要減少 Token 數(shù)量(例如,從576減少到144)。

    (3) Concat:將相鄰 Token 連接起來(lái),然后通過(guò)一個(gè)MLP進(jìn)行處理,允許 Token 數(shù)量減少,但增加參數(shù)數(shù)量(因?yàn)镸LP的輸入維度增加)。

    (4) Mean Pool:在通過(guò)一個(gè)帶有步長(zhǎng)為2的卷積層進(jìn)行池化之前,應(yīng)用一個(gè)卷積層,使 Token 數(shù)量減少,同時(shí)保持與MLP一致的參數(shù)數(shù)量。

    在早期實(shí)驗(yàn)中,作者發(fā)現(xiàn)使用不同 Projector 的模型在整體圖像理解上差別不大,但在添加100萬(wàn)純中文OCR VQA數(shù)據(jù)后,它們?cè)谥形腛CR理解上存在差異。結(jié)果表明,雖然使用C-abs Projector 的模型在學(xué)習(xí)和掌握中文OCR能力方面存在困難,而使用MLP Projector 的模型開(kāi)始適應(yīng)數(shù)據(jù),并在0.75個(gè)epoch后展現(xiàn)出零樣本學(xué)習(xí)的能力。

    最終,作者將 Projector 排名如下:MLP > Mean Pool > Concat > C-abs。另一方面,為了在AnyRes操作(MLP產(chǎn)生729個(gè) Token ,而Mean Pool、Concat和C-abs各自產(chǎn)生182個(gè) Token )后最小化子圖像中的 Token 數(shù)量,作者選擇Mean Pool作為視覺(jué) Projector 。

    3.5.2 視頻-語(yǔ)言分支

    對(duì)于視頻模態(tài),作者從三個(gè)方面進(jìn)行深入分析,以全面研究各種因素對(duì)模型性能的影響。

    幀數(shù)。 在考慮上下文長(zhǎng)度的限制下,作者系統(tǒng)性地調(diào)整幀采樣率以控制輸入視頻幀的最大數(shù)量。

    視覺(jué)編碼器的分辨率。作者研究了不同視覺(jué)編碼器分辨率對(duì)模型提取有意義視覺(jué)特征的能力的影響。作者的調(diào)查從固定分辨率(如384 × 384像素)擴(kuò)展到動(dòng)態(tài)分辨率方法,如AnyRes。

    視頻語(yǔ)言預(yù)訓(xùn)練。 作者評(píng)估模型在有和沒(méi)有視頻語(yǔ)言預(yù)訓(xùn)練時(shí)的性能。這種比較有助于作者量化利用大規(guī)模多模態(tài)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的好處,可能增強(qiáng)模型理解視頻文本關(guān)系和泛化到各種視頻理解任務(wù)的能力。

    如表10所示,模型在視頻理解方面的性能受到處理輸入幀數(shù)量的影響。當(dāng)輸入幀的數(shù)量從64減少到48時(shí),模型理解和解釋視頻內(nèi)容的能力(平均值從54.7%下降到50.1%)明顯下降。

    在測(cè)試模型時(shí),總共輸入了48幀。結(jié)果表明,使用AnyRes技術(shù)的模型與固定分辨率為384x384的模型相比,性能更優(yōu)。這種性能優(yōu)勢(shì)在各種基準(zhǔn)測(cè)試中都很明顯,包括MVBench、VideoMME和ActivityNet-QA。實(shí)際上,啟用AnyRes的模型相對(duì)于固定分辨率的模型平均提高了約5%。

    此外,從表的第一行和第三行可以看出,將視頻文本預(yù)訓(xùn)練納入模型中會(huì)對(duì)模型的視頻理解能力產(chǎn)生顯著影響。例如,在MVBench中,沒(méi)有預(yù)訓(xùn)練的模型大約落后于有預(yù)訓(xùn)練的模型6%。

    總體而言,作者發(fā)現(xiàn)增加視頻幀數(shù)、提高視覺(jué)編碼器分辨率以及預(yù)訓(xùn)練階段整合視頻文本數(shù)據(jù),都能提高模型理解視頻的能力。作者將這些因素在輸入超出上下文長(zhǎng)度(增加幀數(shù)和分辨率)的情況下的探索留待未來(lái)工作。

    3.5.3 音頻-語(yǔ)言分支

    音頻語(yǔ)言分支中的音頻Projector在音頻與自然語(yǔ)言模態(tài)表示之間起到了關(guān)鍵作用。值得一提的是,Conv-GMLPProjector展示了特征下采樣率的強(qiáng)大性能魯棒性。

    對(duì)于分析,作者在Fleurs、WenetSpeech和KeSpeech的所有ASR基準(zhǔn)測(cè)試集上測(cè)量平均WER,這些基準(zhǔn)測(cè)試集分別采用了2、4、8三種不同的降采樣率進(jìn)行訓(xùn)練。為了模擬Baichuan-Omni中音頻分支的實(shí)際訓(xùn)練過(guò)程,作者只訓(xùn)練音頻編碼器和解碼器,同時(shí)讓語(yǔ)言模型保持凍結(jié)。這種設(shè)置與第3.2.3節(jié)中描述的配置一致。

    從圖6中作者可以觀察到,當(dāng)降采樣率設(shè)置為2時(shí),音頻語(yǔ)言模型實(shí)現(xiàn)了最佳的ASR性能,平均WER為7.7%。當(dāng)降采樣率調(diào)整為4和8時(shí),ASR性能略有下降,但降低幅度很小(從0.3%到0.6%)。令人驚訝的是,盡管降采樣率更大,但降采樣率為8的模型優(yōu)于降采樣率為4的模型(8.0% vs. 8.3%)。這突顯了Conv-GMLP的非凡的序列壓縮能力。

    3.5.4 多模態(tài)監(jiān)督微調(diào)

    表11和表12比較了Baichuan-Omni在各種圖像和視頻基準(zhǔn)測(cè)試上的性能,在有和沒(méi)有多模態(tài)監(jiān)督微調(diào)(SFT)的情況下。結(jié)果表明,與僅進(jìn)行指令微調(diào)(IFT)的版本相比,經(jīng)過(guò)多模態(tài)SFT的模型在整體性能上表現(xiàn)出優(yōu)越性。這種改進(jìn)可以歸因于使用高質(zhì)量、多樣化的指令和作者SFT數(shù)據(jù)構(gòu)建方法,同時(shí)避免了基礎(chǔ)模型的能力受損。

    Baichuan-Omni的這一版本在將理解集成到視頻、圖像、文本和音頻方面已經(jīng)達(dá)到了領(lǐng)先水平。

    盡管其表現(xiàn)令人鼓舞,但每個(gè)單一模態(tài)的基礎(chǔ)能力仍然有顯著的提高空間。這包括:(1)增強(qiáng)文本提取能力;
    (2)支持更長(zhǎng)的視頻理解;
    (3)開(kāi)發(fā)一個(gè)與LLM集成的端到端文本轉(zhuǎn)語(yǔ)音(TTS)系統(tǒng);
    (4)提高不僅理解人類(lèi)聲音,還能理解如流水、鳥(niǎo)鳴和碰撞噪音等自然環(huán)境聲音的能力。

    參考
    [0]. BAICHUAN-OMNI TECHNICAL REPORT.

    AI大模型作為人工智能領(lǐng)域的重要技術(shù)突破,正成為推動(dòng)各行各業(yè)創(chuàng)新和轉(zhuǎn)型的關(guān)鍵力量。抓住AI大模型的風(fēng)口,掌握AI大模型的知識(shí)和技能將變得越來(lái)越重要。

    學(xué)習(xí)AI大模型是一個(gè)系統(tǒng)的過(guò)程,需要從基礎(chǔ)開(kāi)始,逐步深入到更高級(jí)的技術(shù)。

    這里給大家精心整理了一份,包括:AI大模型全套學(xué)習(xí)路線圖(從入門(mén)到實(shí)戰(zhàn))、精品AI大模型學(xué)習(xí)書(shū)籍手冊(cè)、視頻教程、實(shí)戰(zhàn)學(xué)習(xí)、面試題等,!

    要學(xué)習(xí)一門(mén)新的技術(shù),作為新手一定要先學(xué)習(xí)成長(zhǎng)路線圖方向不對(duì),努力白費(fèi)。

    這里,我們?yōu)樾率趾拖胍M(jìn)一步提升的專業(yè)人士準(zhǔn)備了一份詳細(xì)的學(xué)習(xí)成長(zhǎng)路線圖和規(guī)劃??梢哉f(shuō)是最科學(xué)最系統(tǒng)的學(xué)習(xí)成長(zhǎng)路線。

    書(shū)籍和學(xué)習(xí)文檔資料是學(xué)習(xí)大模型過(guò)程中必不可少的,我們精選了一系列深入探討大模型技術(shù)的書(shū)籍和學(xué)習(xí)文檔,它們由領(lǐng)域內(nèi)的頂尖專家撰寫(xiě),內(nèi)容全面、深入、詳盡,為你學(xué)習(xí)大模型提供堅(jiān)實(shí)的理論基礎(chǔ)。(書(shū)籍含電子版PDF)

    對(duì)于很多自學(xué)或者沒(méi)有基礎(chǔ)的同學(xué)來(lái)說(shuō),書(shū)籍這些純文字類(lèi)的學(xué)習(xí)教材會(huì)覺(jué)得比較晦澀難以理解,因此,我們提供了豐富的大模型視頻教程,以動(dòng)態(tài)、形象的方式展示技術(shù)概念,幫助你更快、更輕松地掌握核心知識(shí)。

    行業(yè)分析主要包括對(duì)不同行業(yè)的現(xiàn)狀、趨勢(shì)、問(wèn)題、機(jī)會(huì)等進(jìn)行系統(tǒng)地調(diào)研和評(píng)估,以了解哪些行業(yè)更適合引入大模型的技術(shù)和應(yīng)用,以及在哪些方面可以發(fā)揮大模型的優(yōu)勢(shì)。

    學(xué)以致用 ,當(dāng)你的理論知識(shí)積累到一定程度,就需要通過(guò)項(xiàng)目實(shí)戰(zhàn),在實(shí)際操作中檢驗(yàn)和鞏固你所學(xué)到的知識(shí),同時(shí)為你找工作和職業(yè)發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)。

    面試不僅是技術(shù)的較量,更需要充分的準(zhǔn)備。

    在你已經(jīng)掌握了大模型技術(shù)之后,就需要開(kāi)始準(zhǔn)備面試,我們將提供精心整理的大模型面試題庫(kù),涵蓋當(dāng)前面試中可能遇到的各種技術(shù)問(wèn)題,讓你在面試中游刃有余。

    全套的AI大模型學(xué)習(xí)資源已經(jīng)整理打包,有需要的小伙伴可以,免費(fèi)領(lǐng)取【】

    轉(zhuǎn)載請(qǐng)注明來(lái)自宜賓民心創(chuàng)傷骨科醫(yī)院有限責(zé)任公司,本文標(biāo)題:《百川開(kāi)源第1個(gè)7B多模態(tài)大模型 Baichuan-Omni | 能夠同時(shí)分析圖像/視頻/音頻/文》

    百度分享代碼,如果開(kāi)啟HTTPS請(qǐng)參考李洋個(gè)人博客
    每一天,每一秒,你所做的決定都會(huì)改變你的人生!
    Top