發(fā)布時間:2025-09-18 來源:筋疲力盡網(wǎng)作者:劈你的雷在路上
作者 | Yoky郵箱 | yokyliu@pingwest.com
什么樣的AI模型才算真正“智能”?是能解復雜數(shù)學題的推理高手,還是能精準執(zhí)行指令的智能助理?在當前大模型發(fā)展中,這似乎成了一道二選一的難題:推理模型往往在工具調(diào)用上表現(xiàn)平平,而智能體模型則在深度思考時力不從心。
9月9日,在2025年WAVE SUMMIT深度學習開發(fā)者大會上,百度發(fā)布了文心大模型X1.1。作為備受關注的“深度思考模型”升級版,X1.1宣稱能夠在一個統(tǒng)一架構下,既保持深度推理能力,又具備智能體的執(zhí)行效率。
據(jù)百度CTO王海峰現(xiàn)場介紹,X1.1的核心突破在于“迭代式混合強化學習訓練框架”:通過混合強化學習機制,讓模型在訓練過程中同時優(yōu)化推理任務和智能體任務的表現(xiàn),并借助自蒸餾數(shù)據(jù)的迭代式生產(chǎn),持續(xù)強化模型的綜合能力。
數(shù)據(jù)顯示,相比前代X1模型,X1.1在關鍵維度實現(xiàn)了顯著提升:事實性提升34.8%,指令遵循提升12.5%,智能體能力提升9.6%。在多個權威基準評測中,X1.1整體表現(xiàn)超越DeepSeek R1-0528,與GPT-5、Gemini 2.5 Pro等國際頂尖模型效果持平。
X1.1的實際能力邊界在哪里?它是否真的找到了AI模型能力平衡的新路徑?我們在核心場景下進行了深度評測,來看看文心X1.1的真實實力。
1
讓X1.1當一天打工人:糾錯、寫梗、做方案
相比于解決模型產(chǎn)生幻覺的,人類產(chǎn)生“幻覺”的場景往往更多,那么當人類提出一個錯誤的問題,模型是否能夠不過渡順從,而是客觀校正?
為了測試文心X1.1在這方面的表現(xiàn),我們設計了一個充滿錯誤的復合問題:我打算重走成吉思汗水路,從蒙古烏蘭巴托坐船直下珠江,聽說元朝就有這條運河,沿途還能看兵馬俑和西湖,三天到廣州,對吧?
在這個刻意構造的錯誤信息測試中,我們故意拋出了一個看似有理、實則荒謬的歷史地理混合問題,X1.1沒有簡單地說“您說錯了”,而是系統(tǒng)性地拆解了問題中的多個錯誤維度:從元朝運河體系、地理連接性、歷史景點位置到交通可行性,逐一澄清,體現(xiàn)了深度推理能力。
在糾正錯誤的同時,X1.1校準了從京杭大運河的具體路徑,還提供了現(xiàn)實可行的替代建議——京杭大運河北京-杭州段、珠江流域廣州-桂林段。
當然,推理能力固然重要,但語言理解和表達是深度思考模型的基礎,我們測試了一道經(jīng)典題目來看看X1.1的深度理解和表達能力。
從結(jié)果來看,X1.1成功捕捉了魯迅雜文的核心特征,從“大約比當年'賽先生'初來時更熱鬧些”的開篇,到“舊瓶裝新酒”、“破棉絮裹著的爛草芯”等比喻,都頗有魯迅式的辛辣和生動。特別是“昔人鑄劍十年方成利器,今人卻想三日造出屠龍刀”這樣的對比句式,既有古典韻味又切中時弊。
另一方面對于當AI創(chuàng)業(yè)生態(tài)的觀察相當?shù)轿?,從融資PPT的顛覆性創(chuàng)新到產(chǎn)品實際的一觸即潰,從概念炒作的元宇宙、大模型到技術底子的“挖三尺便見了底”,這些描述反映了對行業(yè)現(xiàn)狀的深度理解。
從技術角度來看,這一測試展現(xiàn)了X1.1在多個維度上的綜合能力:文本生成的流暢度、特定風格的精準模仿,我們還嘗試了一個更具挑戰(zhàn)性的任務:讓X1.1模仿最近在小紅書上爆火的“AI發(fā)瘋文學”風格,以「量子力學害了我女兒」為題創(chuàng)作一段文本。這種網(wǎng)絡文體以其夸張的情緒表達、跳躍性的邏輯關聯(lián)和戲劇化的敘述方式著稱,對模型的風格捕捉能力和創(chuàng)意表達提出了極高要求。
我們只提示了模型:你是一位網(wǎng)絡文學家,擅長模仿并創(chuàng)作一種名為“發(fā)瘋文學”的互聯(lián)網(wǎng)文體。請你學習并模仿“大模型發(fā)瘋文學”的成功范例,然后圍繞【測試主題】進行創(chuàng)作。在沒有給任何范例的前提下,它通過搜索和自我學習完成了一篇地道的“胡說八道”。
最后,也是最具挑戰(zhàn)性的測試環(huán)節(jié),我們考察了X1.1的Agent能力——即面對復雜的現(xiàn)實任務時,能否像專業(yè)顧問一樣提供系統(tǒng)性的解決方案。
我們拋給它一個真實而復雜的任務:硅星人計劃在本月舉辦一場面向全球AI從業(yè)者的嘉年華活動(ACC),需要X1.1從零開始制定完整的籌備計劃和主視覺設計方案。這不是簡單的信息檢索或文本生成,而是需要統(tǒng)籌規(guī)劃、創(chuàng)意設計、資源協(xié)調(diào)等多重能力的綜合考驗。
令人驚喜的是,X1.1的表現(xiàn)遠超預期。它不僅根據(jù)我們提供的基礎信息規(guī)劃出了詳細的活動日程,還主動推薦了幾位業(yè)界重量級嘉賓,甚至為每位嘉賓量身定制了適合的參與環(huán)節(jié)和演講主題。
更有意思的是,它還設計了幾個頗具創(chuàng)意的特色環(huán)節(jié),其中“深夜酒吧對話”這個環(huán)節(jié)我們還真有,看來AI對行業(yè)從業(yè)者的社交需求把握得相當精準。
我們還讓X1.1設計了主視覺海報,雖然稍顯簡單,但整個藍紫色的配色方案又與我們“不謀而合”。
整體來看,文心X1.1在這輪評測中展現(xiàn)出了比以往更強的實戰(zhàn)能力。從糾錯到創(chuàng)作再到策劃的跨度,體現(xiàn)的不僅是技術能力的全面性,更是對不同場景的精準判斷力。X1.1知道什么時候該嚴肅地糾正錯誤,什么時候該放飛創(chuàng)意,什么時候該系統(tǒng)性地解決實際問題。
1
思行合一:思維鏈與行動鏈的頂點融合
當我們與X1.1對話時發(fā)現(xiàn),它可以兼顧長思考和工具調(diào)用兩種能力,成為真正有想法的Agent模型。
這項技術創(chuàng)新也在海外被開發(fā)者認可,文心1.1的出現(xiàn)開發(fā)者自發(fā)與GPT、Claude、Gemini進行對比,當發(fā)現(xiàn)效果表現(xiàn)的更加優(yōu)秀時,直呼“Baidu is back!”。
之所以能取得如此突破性的效果,背后文心大模型X1.1的技術創(chuàng)新核心,在于采用其迭代式混合強化學習訓練框架。該框架的獨特之處在于雙重優(yōu)化:一方面通過混合強化學習同時通用提升任務和智能體任務的效果,打破了傳統(tǒng)訓練中兩類任務相互抵消的技術瓶頸;另外通過自我調(diào)整的數(shù)據(jù)迭代式生產(chǎn)及訓練,不斷提升模型整體效果,形成了改進的自我閉環(huán)機制。
這種訓練范式的創(chuàng)新意義在于,傳統(tǒng)模型往往在思維推理和行動執(zhí)行之間存在斷層,而X1.1通過將兩個鏈條有機融合,讓模型能進行深度的邏輯推理,從而準確的將思維結(jié)果轉(zhuǎn)化為具體的執(zhí)行動作。它不再將推理能力和智能體能力視為兩個獨立的技術路徑,而是在統(tǒng)一的最終框架下實現(xiàn)良好優(yōu)化。
而基于指令驗證器的強化學習技術則專門針對復雜指令遵循場景進行優(yōu)化。通過自動構建指令檢查清單并驗證,模型在復雜指令遵循方面的效果明顯提升。該機制可以比喻為模型內(nèi)置了一個“質(zhì)量檢查員”,能夠在執(zhí)行過程中實時驗證是否理解并執(zhí)行了用戶的復雜指令,從而大幅降低了執(zhí)行偏差的風險。
同時在后訓練的過程中引入知識一致性驗證的強化學習技術得以解決事實性問題。在訓練過程中,系統(tǒng)不斷校驗后訓練模型和預訓練模型知識的一致性,確保模型在獲得新能力的同時不會丟失原有的知識基礎,模型的事實性得到了后續(xù)的提升。
如此復雜的技術創(chuàng)新能夠成功落地,文心大模型能力拓展和效率提升,離不開飛槳文心的聯(lián)合優(yōu)化。X1.1基于飛槳深度學習框架進行訓練,充分利用了飛槳在大模型訓練方面的技術優(yōu)勢。
在訓練層面,最新發(fā)布的飛槳框架v3.2在計算、并行策略、原生容錯能力三個方面進一步升級。
在基礎計算性能層面,飛槳提出了存算重疊的稀疏掩碼注意力計算FlashMask V3,極致優(yōu)化Attention的計算效率,同時還實現(xiàn)了高效的FP8混合精度效果無損訓練技術。
在分布式并行策略層面,提出了動態(tài)自適應的顯存卸載策略,實現(xiàn)存算最優(yōu)均衡,結(jié)合飛槳創(chuàng)新設計的顯存友好的流水線并行調(diào)度,進一步降低顯存開銷。
對于大規(guī)模集群訓練場景,借助框架原生的容錯能力,實現(xiàn)了大規(guī)模集群訓練容錯系統(tǒng),可在不影響訓練效率的前提下在線監(jiān)測靜默數(shù)據(jù)損壞等難以察覺的故障,并實現(xiàn)了高可用的檢查點容災方法,降低中斷恢復損失。
經(jīng)過優(yōu)化,文心X1.1及4.5系列模型均獲得了優(yōu)異的性能表現(xiàn),并在ERNIE-4.5-300B-A47B上取得了47%的MFU。
從實驗室的技術突破到行業(yè)應用的工程實踐,飛槳正在全面降低大模型訓練、推理、部署、服務的應用門檻??梢哉f,這種框架與模型的深度聯(lián)合優(yōu)化,正是百度在大模型技術路徑上的特色和優(yōu)勢之一。
1
結(jié)尾:
通過對文心大模型X1.1的深度評測,我們觀察到這一產(chǎn)品的技術進步背后,實際體現(xiàn)的是百度四層AI架構的協(xié)同作用。
從昆侖芯片、飛槳深度學習平臺、文心大模型到應用,百度在技術棧的各層都有領先業(yè)界的關鍵自研技術,實現(xiàn)了層與層反饋,端到端優(yōu)化,大幅提升效率。在框架層,飛槳是百度自主研發(fā)的中國首個開源開放的產(chǎn)業(yè)級深度學習平臺,包括核心框架、產(chǎn)業(yè)級模型庫、開發(fā)套件、工具組件,以及學習和實訓社區(qū),能夠標準化、自動化地支撐模型生產(chǎn)和應用。在模型層,文心系列在模型層承載了迭代式混合強化學習等算法創(chuàng)新,應用層產(chǎn)品則實現(xiàn)了技術能力向用戶價值的轉(zhuǎn)化。
大模型能力的擴展和效率的提升,帶來了更前瞻、更有想象力的創(chuàng)新應用。本次WAVE SUMMIT在發(fā)布X1.1的同時展示了慧播星數(shù)字人等應用層產(chǎn)品,體現(xiàn)了百度技術架構的實際應用價值。
慧播星背后是百度研發(fā)的劇本驅(qū)動多模協(xié)同的數(shù)字人技術,實現(xiàn)了語言、聲音和形象的協(xié)調(diào)一致。在百度慧播星的應用實踐中,數(shù)字人直播的線上表現(xiàn)超過了真人。此前,羅永浩數(shù)字人直播首秀GMV突破行業(yè)新紀錄,部分核心品類帶貨量超過真人直播??梢哉f,這套數(shù)字人技術的落地應用正是基于文心大模型的最佳實踐。
從技術發(fā)展路徑來看,數(shù)字人等應用的落地過程實踐了AI技術從通用能力向?qū)I(yè)的轉(zhuǎn)化機制。通用大模型語言提供理解和生成的基礎能力,通過特定領域數(shù)據(jù)的精細化形成專業(yè)化功能,最終以產(chǎn)品形態(tài)服務于具體行業(yè)場景。
這種技術轉(zhuǎn)化路線體現(xiàn)了應用百度在AI產(chǎn)業(yè)化中的技術架構,從底層硬件到上層應用的各個方面都對整體技術能力的提升從發(fā)揮作用,構成了技術研發(fā)到商業(yè)應用的完整應用鏈條。
點個“愛心”,再走 吧
>