亚洲精品国产自产拍在线观看_欧洲亚洲国产日韩综合一区_午夜亚洲精品在线视频免费观看_日韩在线观看欧美尤物_亚洲AV成人无码一二三久久_国产精品无码中出在线_麻豆精品一区二区综合A∨_成年男女免费视频网站慢动作_377p人体大尺度啪啪_另类亚洲欧美偷拍

  • 點(diǎn)擊右上角微信好友

    朋友圈

    請(qǐng)使用瀏覽器分享功能進(jìn)行分享

    正在閱讀:1.2B參數(shù)的AI模型如何在推理任務(wù)上超越眾多競(jìng)爭(zhēng)對(duì)手
    首頁>時(shí)政頻道>要聞>正文

    1.2B參數(shù)的AI模型如何在推理任務(wù)上超越眾多競(jìng)爭(zhēng)對(duì)手

    來源:{getone name="zzc/xinwenwang"/}2025-09-19 22:38:29

    在人工智能的世界里,通常大家都認(rèn)為模型越大越好,就像汽車引擎越大馬力越強(qiáng)一樣。不過,由小豆科技實(shí)驗(yàn)室(Xiaoduo AI Lab)的王群、劉楊、林清泉、曲志久、蔣玲等研究人員在2024年12月發(fā)表的這項(xiàng)研究卻顛覆了這一認(rèn)知。他們開發(fā)的Xmodel-2雖然只有12億個(gè)參數(shù),但在復(fù)雜推理和智能代理任務(wù)上的表現(xiàn)卻令人刮目相看,甚至超越了許多更大的模型。感興趣的讀者可以通過arXiv:2412.19638v1訪問完整論文,或在GitHub上查看開源代碼:https://github.com/XiaoduoAILab/Xmodel-2。

    這項(xiàng)研究的背景其實(shí)很容易理解。當(dāng)前的大型語言模型雖然在許多任務(wù)上表現(xiàn)出色,但在復(fù)雜推理方面仍然存在明顯不足。復(fù)雜推理能力對(duì)于自動(dòng)化客服、科學(xué)發(fā)現(xiàn)等應(yīng)用至關(guān)重要,但傳統(tǒng)的解決方案往往是簡(jiǎn)單粗暴地增加模型規(guī)模,這就像用更大的錘子來敲核桃一樣,雖然有效但成本高昂。Xmodel-2的研究團(tuán)隊(duì)決定另辟蹊徑,他們要證明通過精巧的設(shè)計(jì)和訓(xùn)練策略,小模型也能在推理任務(wù)上取得卓越表現(xiàn)。

    研究團(tuán)隊(duì)的核心創(chuàng)新體現(xiàn)在三個(gè)方面。首先,他們采用了基于張量程序的創(chuàng)新架構(gòu)設(shè)計(jì),這個(gè)技術(shù)聽起來很復(fù)雜,但實(shí)際上就像是設(shè)計(jì)了一套標(biāo)準(zhǔn)化的樂高積木系統(tǒng)。在這個(gè)系統(tǒng)中,不同規(guī)模的模型可以共享同一套超參數(shù)配置,這意味著研究人員可以先在小模型上進(jìn)行大量實(shí)驗(yàn)來尋找最優(yōu)配置,然后將這些配置無縫地應(yīng)用到更大的模型上。這種方法大大提高了研究效率,避免了在大模型上進(jìn)行昂貴試驗(yàn)的需要。

    其次,研究團(tuán)隊(duì)采用了來自MiniCPM的WSD學(xué)習(xí)率調(diào)度器。學(xué)習(xí)率調(diào)度器就像是訓(xùn)練過程中的節(jié)拍器,它控制著模型學(xué)習(xí)的快慢節(jié)奏。WSD調(diào)度器的全名是預(yù)熱-穩(wěn)定-衰減調(diào)度器,顧名思義,它將訓(xùn)練過程分為三個(gè)階段:先是預(yù)熱階段讓模型慢慢適應(yīng),然后是穩(wěn)定階段進(jìn)行主要訓(xùn)練,最后是衰減階段精細(xì)調(diào)優(yōu)。這種方法確保了訓(xùn)練過程的穩(wěn)定性和效率。

    第三個(gè)關(guān)鍵創(chuàng)新是數(shù)據(jù)配比優(yōu)化策略。研究團(tuán)隊(duì)深入探索了在訓(xùn)練的衰減階段如何混合預(yù)訓(xùn)練數(shù)據(jù)和高質(zhì)量的監(jiān)督微調(diào)數(shù)據(jù)。經(jīng)過400多次試驗(yàn),他們發(fā)現(xiàn)最優(yōu)的監(jiān)督微調(diào)數(shù)據(jù)比例應(yīng)該在60%到69%之間,具體數(shù)值取決于數(shù)據(jù)集的內(nèi)部構(gòu)成。這個(gè)發(fā)現(xiàn)就像是找到了烹飪的黃金配比,確保了模型在復(fù)雜推理任務(wù)上的出色表現(xiàn)。

    Xmodel-2在訓(xùn)練過程中使用了1.5萬億個(gè)token的海量數(shù)據(jù)。這些數(shù)據(jù)來源廣泛,包括中文語料CC_Chn、英文教育網(wǎng)頁FineWeb-Edu、通用英文語料Dolma,以及StarCoder和The Stack等代碼預(yù)訓(xùn)練數(shù)據(jù)集。在衰減階段,研究團(tuán)隊(duì)還加入了多樣化的監(jiān)督微調(diào)數(shù)據(jù),如EvolInstruct、OssInstruct和UltraChat等。為了提高模型的泛化能力,他們將監(jiān)督微調(diào)數(shù)據(jù)分為五個(gè)不同類別:數(shù)學(xué)、代碼、邏輯、知識(shí)和常識(shí)。其中,思維鏈數(shù)據(jù)被歸類在邏輯類別下,通過規(guī)則變換增加了監(jiān)督微調(diào)提示的多樣性。

    在模型架構(gòu)設(shè)計(jì)上,Xmodel-2采用了類似于LLama 2的結(jié)構(gòu),但進(jìn)行了多項(xiàng)優(yōu)化。模型具有1536的隱藏層大小、3840的中間層大小、24個(gè)注意力頭、8個(gè)鍵值頭、48個(gè)層以及4096的上下文長(zhǎng)度。與大多數(shù)使用BPE分詞器的大型模型不同,Xmodel-2采用了自定義的Unigram分詞器,詞匯表大小為65,280個(gè)token。為了提高效率,模型實(shí)現(xiàn)了嵌入層共享,這一設(shè)計(jì)減少了1億個(gè)參數(shù)。

    研究團(tuán)隊(duì)特別強(qiáng)調(diào)了深而窄架構(gòu)的重要性,這種設(shè)計(jì)對(duì)于小型語言模型尤為關(guān)鍵。同時(shí),為了優(yōu)化訓(xùn)練和推理效率,模型采用了分組查詢注意力機(jī)制,使用24個(gè)注意力頭和8個(gè)鍵值頭。這種設(shè)計(jì)就像是在有限的資源下優(yōu)化了信息處理的流水線。

    訓(xùn)練過程分為兩個(gè)關(guān)鍵階段:穩(wěn)定訓(xùn)練階段和衰減階段。在穩(wěn)定訓(xùn)練階段,模型使用約1.5萬億個(gè)token進(jìn)行訓(xùn)練,主要來源于開放數(shù)據(jù)集。訓(xùn)練采用了通過模型調(diào)優(yōu)實(shí)驗(yàn)確定的最優(yōu)配置,使用WSD學(xué)習(xí)率調(diào)度器,批次大小為393萬個(gè)token,最大學(xué)習(xí)率為0.01。

    衰減階段將預(yù)訓(xùn)練數(shù)據(jù)與高質(zhì)量監(jiān)督微調(diào)數(shù)據(jù)相結(jié)合,對(duì)WSD學(xué)習(xí)率調(diào)度器應(yīng)用指數(shù)退火。退火公式為f(s-T) = 0.5^((s-S)/T),其中T設(shè)置為5000步(200億token),使學(xué)習(xí)率在最終訓(xùn)練階段逐漸降低。這個(gè)過程就像是在雕琢藝術(shù)品的最后階段,需要更加精細(xì)和謹(jǐn)慎的處理。

    實(shí)驗(yàn)結(jié)果顯示,Xmodel-2在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)卓越。在常識(shí)推理任務(wù)上,包括ARC-Challenge、ARC-Easy、BoolQ、HellaSwag、OpenBookQA、PiQA、SciQ、TriviaQA和Winogrande等基準(zhǔn)測(cè)試中,Xmodel-2展現(xiàn)了與同規(guī)模模型相當(dāng)?shù)母?jìng)爭(zhēng)力。更令人印象深刻的是,在復(fù)雜推理任務(wù)上,Xmodel-2表現(xiàn)出了顯著優(yōu)勢(shì)。

    在GSM8K數(shù)學(xué)推理測(cè)試中,Xmodel-2達(dá)到了55.88%的準(zhǔn)確率。在MATH高級(jí)數(shù)學(xué)測(cè)試中獲得了25.50%的分?jǐn)?shù)。在BBH大型基準(zhǔn)測(cè)試中取得了48.40%的成績(jī)。在MMLU多任務(wù)理解測(cè)試中達(dá)到了48.87%的準(zhǔn)確率。在代碼生成方面,HumanEval測(cè)試中達(dá)到了29.88%,MBPP測(cè)試中達(dá)到了29.20%。綜合這些結(jié)果,Xmodel-2在復(fù)雜推理任務(wù)上的平均得分達(dá)到了39.62分,在1-2B參數(shù)規(guī)模的模型中表現(xiàn)出色。

    特別值得關(guān)注的是Xmodel-2在智能代理任務(wù)上的表現(xiàn)。研究團(tuán)隊(duì)使用ReAct提示技術(shù)在四個(gè)代理任務(wù)上進(jìn)行了評(píng)估,包括HotpotQA、FEVER、AlfWorld和WebShop。這些任務(wù)對(duì)小型語言模型來說極具挑戰(zhàn)性,因?yàn)樗鼈冃枰獜?fù)雜推理、多步?jīng)Q策制定和現(xiàn)實(shí)世界交互能力。

    在HotpotQA任務(wù)中,代理需要從維基百科檢索信息,跨多個(gè)文檔進(jìn)行推理來回答復(fù)雜的開放式問題,Xmodel-2達(dá)到了13.70%的精確匹配率。在FEVER任務(wù)中,代理通過多項(xiàng)選擇題驗(yàn)證聲明的真實(shí)性,取得了40.00%的成績(jī)。在AlfWorld任務(wù)中,代理需要在包含25個(gè)容器的環(huán)境中進(jìn)行空間推理和決策制定,執(zhí)行檢索或操作物體等動(dòng)作,Xmodel-2獲得了0.78%的成功率。在WebShop任務(wù)中,代理需要在模擬的電子商務(wù)環(huán)境中導(dǎo)航、搜索、定制和購買物品,達(dá)到了2.20%的成功率。綜合這些任務(wù)的表現(xiàn),Xmodel-2取得了14.21的平均分,在同規(guī)模模型中表現(xiàn)最佳。

    研究團(tuán)隊(duì)還進(jìn)行了一些有趣的案例研究。首先是校準(zhǔn)性分析,結(jié)果顯示預(yù)訓(xùn)練的Xmodel-2模型具有良好的校準(zhǔn)性,預(yù)測(cè)置信度與實(shí)際正確性概率密切對(duì)應(yīng)。校準(zhǔn)圖顯示了模型的預(yù)測(cè)置信度與實(shí)際準(zhǔn)確率之間的關(guān)系,接近完美校準(zhǔn)的對(duì)角線,這表明模型對(duì)自身預(yù)測(cè)的可信度評(píng)估相當(dāng)準(zhǔn)確。

    另一個(gè)引人關(guān)注的發(fā)現(xiàn)是后訓(xùn)練縮放定律。研究團(tuán)隊(duì)在Wikitext-2數(shù)據(jù)集上探索了測(cè)試時(shí)損失隨提示token數(shù)量增加的變化規(guī)律。分析顯示,隨著上下文token數(shù)量的增加,模型對(duì)下一個(gè)token的預(yù)測(cè)準(zhǔn)確性提高,損失與token索引遵循冪律關(guān)系。擬合曲線顯示L(t) = b + (t/c)^a,其中a約為-0.575,b約為1.772,c約為32.840。這一發(fā)現(xiàn)表明,類似于OpenAI使用測(cè)試時(shí)間來增強(qiáng)模型性能的方法,增加上下文長(zhǎng)度確實(shí)能帶來更準(zhǔn)確的token預(yù)測(cè)。

    在研究過程中,團(tuán)隊(duì)還進(jìn)行了大量的模型風(fēng)洞實(shí)驗(yàn)來驗(yàn)證訓(xùn)練策略。他們?cè)趦蓚€(gè)小模型(6M參數(shù)的nano模型和54M參數(shù)的tiny模型)上進(jìn)行了超參數(shù)搜索和數(shù)據(jù)配比優(yōu)化,這些實(shí)驗(yàn)證實(shí)了策略對(duì)Xmodel-2的適用性。

    具體來說,他們使用貝葉斯優(yōu)化對(duì)四個(gè)關(guān)鍵超參數(shù)進(jìn)行了搜索:scale_emb、dim_model_base、scale_depth和learning_rate。在nano模型上使用C4數(shù)據(jù)集進(jìn)行了300種配置的探索,相比網(wǎng)格搜索的57萬種配置大大提高了效率。結(jié)果顯示,最優(yōu)學(xué)習(xí)率應(yīng)在0.01到0.02之間,dim_model_base應(yīng)低于256。損失低于4.1的配置集中在特定超參數(shù)周圍,表明性能穩(wěn)定。

    研究團(tuán)隊(duì)發(fā)現(xiàn),μP超參數(shù)在不同模型規(guī)模間保持穩(wěn)定,這驗(yàn)證了他們架構(gòu)設(shè)計(jì)的有效性。張量程序技術(shù)的應(yīng)用使得不同規(guī)模的模型能夠共享相同的超參數(shù)配置,大大簡(jiǎn)化了大模型的調(diào)優(yōu)過程。

    數(shù)據(jù)配比實(shí)驗(yàn)揭示了指令格式化的監(jiān)督微調(diào)數(shù)據(jù)在退火階段的有效性,最終確定將64%的比例分配給監(jiān)督微調(diào)數(shù)據(jù)。這些調(diào)整結(jié)合優(yōu)化的數(shù)據(jù)混合和處理,使復(fù)雜推理性能較基線提高了29.31%。

    整個(gè)研究過程體現(xiàn)了精心設(shè)計(jì)的重要性。通過創(chuàng)新的架構(gòu)、優(yōu)化的學(xué)習(xí)率調(diào)度和精確的數(shù)據(jù)配比,Xmodel-2證明了小模型也能在特定領(lǐng)域達(dá)到甚至超越大模型的性能。這就像是一位技藝精湛的工匠,用更少的材料制作出了更精美的作品。

    說到底,這項(xiàng)研究為我們展示了一個(gè)重要的觀點(diǎn):在人工智能發(fā)展的道路上,并不總是需要通過增加模型規(guī)模來提升性能。通過精巧的設(shè)計(jì)和優(yōu)化,小模型同樣可以在特定任務(wù)上取得卓越表現(xiàn)。Xmodel-2的成功不僅為研究人員提供了一個(gè)高效的工具,更重要的是,它證明了智能的實(shí)現(xiàn)并不完全依賴于規(guī)模的擴(kuò)張,而是可以通過更好的方法論和技術(shù)創(chuàng)新來達(dá)成。

    這項(xiàng)研究對(duì)于整個(gè)人工智能領(lǐng)域具有重要意義。它為那些計(jì)算資源有限但希望在推理任務(wù)上取得突破的研究者和開發(fā)者提供了新的思路。同時(shí),Xmodel-2在智能代理任務(wù)上的出色表現(xiàn)也預(yù)示著它在客戶服務(wù)自動(dòng)化、任務(wù)自動(dòng)化等實(shí)際應(yīng)用中的巨大潛力。

    歸根結(jié)底,Xmodel-2的研究告訴我們,在追求人工智能能力提升的過程中,創(chuàng)新的方法往往比簡(jiǎn)單的規(guī)模擴(kuò)張更有價(jià)值。這種"小而美"的設(shè)計(jì)理念不僅降低了計(jì)算成本,提高了訓(xùn)練效率,更重要的是為人工智能的普及和應(yīng)用開辟了新的道路。對(duì)于那些希望深入了解這項(xiàng)研究細(xì)節(jié)的讀者,完整的論文和代碼都已在GitHub上開源,為進(jìn)一步的研究和應(yīng)用提供了寶貴資源。

    Q&A

    Q1:Xmodel-2相比其他1-2B參數(shù)的模型有什么特別之處?

    A:Xmodel-2最大的特點(diǎn)是專門針對(duì)推理任務(wù)進(jìn)行優(yōu)化設(shè)計(jì)。它采用了創(chuàng)新的張量程序架構(gòu),使得不同規(guī)模模型能共享超參數(shù)配置,大大提高了訓(xùn)練效率。同時(shí)使用WSD學(xué)習(xí)率調(diào)度器和精心優(yōu)化的數(shù)據(jù)配比策略,在復(fù)雜推理和智能代理任務(wù)上的表現(xiàn)超越了許多同規(guī)模甚至更大的模型。雖然只有12億參數(shù),但在GSM8K、MATH等推理基準(zhǔn)測(cè)試中表現(xiàn)卓越。

    Q2:小豆科技為什么要開發(fā)這樣一個(gè)小參數(shù)模型而不是追求更大規(guī)模?

    A:研究團(tuán)隊(duì)認(rèn)為簡(jiǎn)單增加模型規(guī)模并不是提升推理能力的最佳方案。他們要證明通過精巧設(shè)計(jì)和優(yōu)化策略,小模型同樣可以在特定任務(wù)上達(dá)到甚至超越大模型的性能。這種方法不僅降低了計(jì)算成本和能耗,還提高了訓(xùn)練效率,為資源有限的研究者和開發(fā)者提供了更實(shí)用的解決方案,同時(shí)也為AI技術(shù)的普及應(yīng)用開辟了新道路。

    Q3:普通開發(fā)者如何使用Xmodel-2,它適合哪些應(yīng)用場(chǎng)景?

    A:Xmodel-2已經(jīng)在GitHub上開源(https://github.com/XiaoduoAILab/Xmodel-2),開發(fā)者可以免費(fèi)獲取模型權(quán)重和代碼。由于其在推理和代理任務(wù)上的優(yōu)異表現(xiàn),特別適合用于自動(dòng)化客服、任務(wù)自動(dòng)化、代碼生成、數(shù)學(xué)問題求解等需要復(fù)雜推理的應(yīng)用場(chǎng)景。相比大模型,它的部署成本更低,運(yùn)行效率更高,非常適合中小企業(yè)和個(gè)人開發(fā)者使用。

    [責(zé)編:{getone name="zzc/mingzi"/}]
    閱讀剩余全文(