本文第一作者為新加坡國立大學博士生 張桂彬、牛津大學研究員 耿鶴嘉、帝國理工學院博士生 于曉航;通訊作者為上海人工智能實驗室青年領軍科學家 白磊 和 牛津大學博士后 / 上海人工智能實驗室星啟研究員 尹榛菲
過去幾年,大語言模型(LLM)的訓練大多依賴于基于人類或數(shù)據偏好的強化學習(Preference-based Reinforcement Fine-tuning, PBRFT):輸入提示、輸出文本、獲得一個偏好分數(shù)。這一范式催生了 GPT-4、Llama-3 等成功的早期大模型,但局限也日益明顯:缺乏長期規(guī)劃、環(huán)境交互與持續(xù)學習能力
為了突破這樣的瓶頸,自 2025 年初 DeepSeek R1 及其背后的 GRPO 范式獲得空前熱度以后,一種新的訓練范式 ——Agentic Reinforcement Learning(Agentic RL),愈發(fā)到社區(qū)關注。它試圖讓 LLM 從「被動對齊」進化為「主動決策」的智能體,在動態(tài)環(huán)境中規(guī)劃、行動、學習。
論文標題:The Landscape of Agentic Reinforcement Learning for LLMs: A SurveyarXiv 地址:https://arxiv.org/pdf/2509.02547GitHub 地址:https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers
為了捋清這一新興領域,一篇長達 100 頁、由牛津大學、新加坡國立大學、伊利諾伊大學厄巴納-香檳分校,倫敦大學學院、帝國理工學院、上海人工智能實驗室等 16 家海內外頂級研究機構聯(lián)合完成的最新綜述論文,全面系統(tǒng)地梳理了作用于 LLM 的 Agentic RL 這一方向,覆蓋 500 + 相關研究,構建了 Agentic RL 的理論框架、演化脈絡與資源版圖,并討論了可信性、擴展性和復雜環(huán)境等未來挑戰(zhàn)。
范式遷移:從 PBRFT 到 Agentic RL
從 LLM-RL 到 Agentic RL 范式遷移概覽
該綜述首先給出范式遷移的形式化定義:早期 RL 研究多基于 PBRFT 范式,可被視為退化的單步 MDP(單 prompt、一次性文本輸出、立即終止),而 Agentic RL 則將 LLM 置于部分可觀測馬爾可夫決策過程(POMDP)下進行多步交互:
一句話:PBRFT 讓模型更會一次地說,Agentic RL 讓模型更會長程地做
強化學習優(yōu)化算法層面,當前實踐形成了一條從通用策略梯度到偏好優(yōu)化的譜系,Table 2 匯總比較了三類算法家族及其代表方法,便于讀者快速對照「訓練用什么算法」與「對齊目標/信號形態(tài)」 的對應關系。
六大核心能力:智能體的「內功」
要讓 LLM 真正成為智能體,僅有動作空間還不夠,它必須發(fā)展出一套完整的能力體系。該綜述將其總結為六大核心模塊,并對每個模塊提出了前瞻性討論:
1.規(guī)劃(Planning):為復雜任務設定子目標與多步行動序列。通過外部引導(外部打分生成獎勵)或內部驅動(自主規(guī)劃并修正)實現(xiàn)。
2.工具使用(Tool Use):調用外部工具完成任務。從 ReAct 等靜態(tài)提示模仿演進到 Tool-integrated RL (TIR),讓智能體學會自主選擇組合工具。
Agentic Tool Using 演化路徑
3.記憶(Memory):保持上下文連貫并積累知識,包括基于外部數(shù)據庫檢索記憶、Token 級別記憶和結構化記憶。其中,值得關注的工作包括來自字節(jié)跳動的 MemAgent 和麻省理工大學的 MEM1,他們都通過強化學習讓 LLM Agent 擁有自行管理記憶窗口的能力。
4.自我改進(Self-Improvement)同樣是目前 Agent 最熱門的發(fā)展方向。該綜述高屋建瓴地將目前 Agent 自我提升的能力劃分為以下三類:
基于語言強化學習,即類似于 Reflexion、Self-Critic 等風格的自我糾正;通過強化學習訓練內化自提升能力,譬如來自 MIT-IBM Watson AI Lab 的 Satori 便通過強化學習內化 Agent 在測試階段自我糾正的能力;類似的工作還有來自上海 AI Lab 的 TTRL,Meta 的 SWEET-RL 等等;通過迭代自訓練,譬如來自清華的 Absolute Zero、來自斯坦福的 Sirius 等等。
5.推理(Reasoning):解決復雜問題的推導能力,分為快速直覺推理(憑經驗直覺迅速答題)和慢速縝密推理(多步演繹得出嚴謹結論)。
6.感知(Perception):理解多模態(tài)輸入的信息獲取能力。模型從被動識別走向主動感知,可通過定位驅動(將推理錨定具體對象)、工具驅動(借助外部工具輔助)和生成驅動(生成圖像草圖輔助推理)等方式提升感知效果。
智能體與環(huán)境交互閉環(huán)示意
借助強化學習,這些能力由人工啟發(fā)式轉變?yōu)榭蓪W習的策略,規(guī)劃不再依賴硬編碼流程、工具使用也可由模型自主決定、端到端訓練。
Agentic RL 6 大核心能力板塊
任務落地與演化路徑
不同任務領域的 Agent RL 進化樹
Agentic RL 也在橫向拓展應用邊界,涌現(xiàn)出多種智能體雛形:
搜索與研究:優(yōu)化多輪檢索與證據整合策略,學會何時繼續(xù)搜索、何時下結論;
代碼:將編譯錯誤與單元測試結果用作獎勵,推動智能體能力從一次性代碼生成進化到自動調試以及自動化軟件工程流程;
數(shù)學:在非形式化 (informal) 推理中,利用正確率或中間過程獎勵來塑造推理軌跡;在形式化 (formal) 推理中,交互式定理證明器 (ITPs) 提供可驗證的二值信號,使智能體能在嚴格規(guī)則下探索證明路徑;
圖形界面 (GUI):在網頁和桌面環(huán)境中讓智能體學習點擊、輸入、導航等操作,從靜態(tài)腳本模仿走向交互式操作,提升對真實應用的適配性;
視覺與具身:融合視覺感知與決策規(guī)劃,實現(xiàn)「看-思-做」的連續(xù)決策閉環(huán),增強智能體在多模態(tài)問答、導航與機器人操作等任務中的表現(xiàn);多智能體系統(tǒng):通過獎勵設計促使多個模型在競爭或合作中逐漸涌現(xiàn)溝通與分工能力。
其他探索:RL 也被應用于數(shù)據分析、科學發(fā)現(xiàn)等場景,顯示出 Agentic RL 在更多任務中的潛在適應性。
總體來看,Agentic RL 已在多個場景初步落地,并正從單一任務逐漸邁向更復雜、更貼近現(xiàn)實的任務生態(tài)。
環(huán)境與框架
Agentic RL 的發(fā)展離不開可復用的實驗環(huán)境與工具鏈?,F(xiàn)有工作已涵蓋網頁、GUI、代碼、游戲等多種開源平臺,并配套了相應的評測基準與框架,為研究者提供了開展實驗和對比的基礎設施。
此外,這份綜述還整合了 500+ 篇相關研究,并在 GitHub 上開源了 Awesome-AgenticLLM-RL-Papers,將論文、環(huán)境、基準與框架一站式匯總,為后續(xù)研究提供了全景式的參考地圖。
挑戰(zhàn)與前瞻
盡管 Agentic RL 已展現(xiàn)出廣闊潛力,但要真正走向穩(wěn)健和實用,還存在若干核心挑戰(zhàn):
可信性與安全性:相比傳統(tǒng) LLM,Agentic RL 智能體集成了規(guī)劃、工具調用和記憶等能力,攻擊面顯著擴大;同時,RL 的獎勵驅動機制也可能導致 reward hacking,使不安全行為被強化,帶來更持久的風險。Scale Up 智能體訓練:大規(guī)模 Agentic RL 訓練面臨算力、數(shù)據和算法效率的瓶頸。當前 RL 方法成本高昂,難以在長時程決策或復雜環(huán)境中穩(wěn)定擴展,需要發(fā)展更高效的優(yōu)化范式。Scale Up 智能體環(huán)境:現(xiàn)有的交互環(huán)境難以覆蓋真實世界的復雜性。未來應探索環(huán)境與智能體的「協(xié)同進化」,例如通過自動化獎勵設計、課程生成和環(huán)境自適應優(yōu)化,讓環(huán)境在訓練中發(fā)揮「主動教學」的作用,而不僅僅作為靜態(tài)測試平臺。
這些挑戰(zhàn)構成了 Agentic RL 進一步發(fā)展的關鍵門檻,也為未來研究提供了明確方向。
結語
這篇綜述系統(tǒng)化梳理了 Agentic RL 的理論框架、能力維度、任務應用與資源生態(tài),確立了其作為 LLM 演進的重要訓練范式。
綜述強調:單步對齊已難以支撐復雜任務,LLM 訓練范式由此進入 Agentic RL 的下半場,而強化學習是將規(guī)劃、工具使用、記憶、推理等核心能力從啟發(fā)式功能轉化為穩(wěn)健智能行為的關鍵機制。
未來,隨著可信性、可擴展性和復雜環(huán)境等挑戰(zhàn)的逐步突破,LLM 將有望真正從 「會說」邁向「會做」,成長為更通用、更自主的智能體。
關于我們|版權聲明| 違法和不良信息舉報電話:010-84151598 | 網絡敲詐和有償刪帖舉報電話:010-84151598
Copyright ? 2008-2024 by {當前域名}. all rights reserved