亚洲精品国产自产拍在线观看_欧洲亚洲国产日韩综合一区_午夜亚洲精品在线视频免费观看_日韩在线观看欧美尤物_亚洲AV成人无码一二三久久_国产精品无码中出在线_麻豆精品一区二区综合A∨_成年男女免费视频网站慢动作_377p人体大尺度啪啪_另类亚洲欧美偷拍

  • 游客發(fā)表

    Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

    發(fā)帖時間:2025-09-19 22:38:57

    henry 發(fā)自 凹非寺量子位 | 公眾號 QbitAI

    Meta超級智能實驗室(MSL)又被送上爭議的風(fēng)口浪尖了。

    不過,這次不是人事風(fēng)波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質(zhì)疑忽視前人研究、缺乏創(chuàng)新

    究竟是啥論文?

    讓模型在博弈中學(xué)習(xí)

    總的來說,MSL這篇新論文的核心思想是通過一種Language Self-Play(LSP)的方法,讓大型語言模型在沒有額外訓(xùn)練數(shù)據(jù)的情況下實現(xiàn)自我提升

    這一方法旨在應(yīng)對當(dāng)前大語言模型高度依賴大規(guī)模、高質(zhì)量訓(xùn)練數(shù)據(jù),且訓(xùn)練數(shù)據(jù)有限所帶來的困境。

    為此,LSP將模型的學(xué)習(xí)過程設(shè)計成一個博弈框架,讓同一個語言模型扮演兩個角色進行對抗,從而實現(xiàn)無數(shù)據(jù)訓(xùn)練。

    具體來說,這兩個角色分別是:

    挑戰(zhàn)者:負責(zé)生成越來越有挑戰(zhàn)性的問題或指令。解決者:負責(zé)回答或執(zhí)行這些指令。

    在對抗過程中,挑戰(zhàn)者不斷生成越來越刁鉆的問題或指令,以降低解決者的預(yù)期回報;而解決者則必須努力理解并回答這些指令,以最大化自身回報——這其實就是我們熟悉的極小極大博弈(minimax game)。

    通過這樣的對抗訓(xùn)練,模型能夠在不斷博弈中持續(xù)改進,逐步提升能力。

    此外,與傳統(tǒng)對抗訓(xùn)練不同,LSP讓單個語言模型同時扮演“挑戰(zhàn)者”和“解決者”兩個角色,研究人員給模型設(shè)計了一個特殊的“挑戰(zhàn)者提示”(Challenger Prompt):當(dāng)接收到該提示時,模型進入挑戰(zhàn)者模式,生成難題;否則,它就扮演解決者角色,回答問題。

    這種單一模型的設(shè)計避免了訓(xùn)練獨立對抗模型所帶來的額外開銷和不穩(wěn)定性。整個過程完全自主,模型在自我對抗中不斷迭代,從而在沒有外部數(shù)據(jù)輸入的情況下提升自身能力

    為了將這個博弈轉(zhuǎn)化成模型強化學(xué)習(xí)的過程,研究中采用了GRPO技巧,讓模型在每輪訓(xùn)練中進行如下操作:

    挑戰(zhàn)者生成問題:每輪生成N個問題。解決者回答問題:對于每個問題,解決者生成一定數(shù)量的答案,并分別計算獎勵。計算組價值與優(yōu)勢:把解決者對同一個問題的所有答案的獎勵進行平均,得到這個問題整體的難度或表現(xiàn)水平。然后用每個答案的實際獎勵減去組價值,判斷這個答案比平均水平高還是低。 - 更新挑戰(zhàn)者優(yōu)勢:通過計算優(yōu)勢函數(shù)獲得問題和答案的反饋,優(yōu)化自己出題的策略。

    通過這種獎勵機制,挑戰(zhàn)者生成的問題會針對解決者的薄弱環(huán)節(jié),從而推動模型不斷改進。

    研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

    此外,在實踐中,研究者發(fā)現(xiàn)LSP-Zero有時會退化,例如模型為了獲取獎勵而生成無意義但能獲得高分的內(nèi)容(即獎勵 hacking)。

    針對解決這個問題,他們在LSP算法中引入了“自我質(zhì)量獎勵”(RQ),引導(dǎo)博弈朝高質(zhì)量交互發(fā)展,使訓(xùn)練可長期進行。

    (注:LSP的具體算法如下表)

    最后,為了驗證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca Eval基準上進行了兩組實驗。

    實驗一將算法與基礎(chǔ)模型本身以及一個通過傳統(tǒng)強化學(xué)習(xí)微調(diào)的大語言模型進行比較。

    實驗結(jié)果顯示,沒有使用任何數(shù)據(jù)的LSP和LSP-Zero和使用了數(shù)據(jù)的GRPO相當(dāng),并且顯著優(yōu)于原始模型。而在 Vicuna這類對話型和開放式指令的數(shù)據(jù)集上,LSP 的表現(xiàn)遠超GRPO。

    實驗二以實驗一中通過數(shù)據(jù)驅(qū)動 RL(GRPO)訓(xùn)練得到的模型為起點,進一步使用 LSP-Zero 和 LSP 進行訓(xùn)練,計算這些模型相對于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進行對比。

    實驗顯示,經(jīng)過LSP的進一步訓(xùn)練后,模型的整體勝率從40.9%顯著提升到了43.1%。

    同樣的,LSP在Vicuna數(shù)據(jù)集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數(shù)據(jù)驅(qū)動的訓(xùn)練之后繼續(xù)挖掘模型潛力。

    總的來說,實驗結(jié)果表明,LSP-Zero和LSP算法能夠在無需訓(xùn)練數(shù)據(jù)的情況下提升預(yù)訓(xùn)練LLM的性能,尤其是在對話類任務(wù)上表現(xiàn)顯著,而這可能意味著AI正在從依賴人類數(shù)據(jù)過渡到自主學(xué)習(xí)系統(tǒng)。

    網(wǎng)友:感覺忽略了大量前人研究?

    雖然(……)但是,LSP一經(jīng)發(fā)布后,在網(wǎng)友們這倒是出了些小插曲。

    一位推特網(wǎng)友直言:LSP自稱是突破性工作,但實際上忽視了大量前人研究,還順帶翻了一些舊賬。

    抱歉了,Meta“超級智能”實驗室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒有引用。其實很多人都做過類似研究(比如 @Benjamin_eecs),無論是聯(lián)合最大化還是極小極大,不管是驗證器還是獎勵模型。為什么要把這說成是突破呢?你們在Vicuna上的評測確實做得不錯,簡直是2023年LLaMA社區(qū)的典型操作。

    而且,就連失敗的模型也大同小異。

    評論區(qū)有網(wǎng)友表示這可能是一篇老工作,然后拿到MSL發(fā)的:

    (注:網(wǎng)友提及的論文如下:[1]Absolute Zero: Reinforced Self-play Reasoning with Zero Data[2]SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning[3]Scalable Reinforcement Post-Training Beyond Static Human Prompts)

    截至目前,MSL及論文作者尚未對此作出回應(yīng)。

    [1]https://x.com/teortaxesTex/status/1965654111069876296

    [2]https://x.com/_akhaliq/status/1965601392187638018

    [3]https://x.com/tydsh/status/1965856666580361705

    [4]https://arxiv.org/pdf/2404.10642

    [5]https://arxiv.org/pdf/2411.00062

    [6]https://arxiv.org/pdf/2505.03335

      {loop type="link" row=1 }{$vo.title}