發(fā)布時(shí)間:2025-09-10 來源:艱難竭蹶網(wǎng)作者:德隆蒂_韋斯特
金磊 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
Meta超級智能實(shí)驗(yàn)室的首篇論文,來了——
提出了一個(gè)名為REFRAG的高效解碼框架,重新定義了RAG(檢索增強(qiáng)生成),最高可將首字生成延遲(TTFT)加速30倍。
畢竟算是超級智能實(shí)驗(yàn)的“開山之作”,研究一出,就已經(jīng)在網(wǎng)上掀起了不少的熱議。
例如Reddti網(wǎng)友表示:
若效果真如研究所說的那樣,那對RAG來說是相當(dāng)不錯(cuò)的改進(jìn),看起來可以做到在不犧牲準(zhǔn)確性的情況下,能顯著提高速度和上下文大小。
天下苦RAG上下文計(jì)算冗余久矣
首先,我們需要理解并回顧一下RAG的工作原理。
當(dāng)一個(gè)大型語言模型(LLM)被要求回答需要精確背景知識的問題時(shí),如果僅依賴它內(nèi)部參數(shù)化的知識,可能會(huì)出現(xiàn)事實(shí)性錯(cuò)誤或信息滯后等情況。
而RAG就通過一個(gè)外部知識庫(如企業(yè)文檔、專業(yè)數(shù)據(jù)庫等)進(jìn)行檢索,將與問題最相關(guān)的信息提取出來,作為上下文與原始問題一同提供給LLM。LLM在獲得這些精確的參考資料后,就能生成內(nèi)容更可靠、更具時(shí)效性的答案。
然而,這個(gè)模式在工程方面也帶來了不小的挑戰(zhàn),即推理效率與信息量的權(quán)衡。
當(dāng)AI檢索到的參考資料非常多(也就是我們通常說的“長上下文”)時(shí),LLM的處理負(fù)擔(dān)會(huì)大幅增加。
模型處理上下文的計(jì)算復(fù)雜度通常與上下文長度的平方成正比,導(dǎo)致生成第一個(gè)字的延遲(Time-to-First-Token, TTFT)顯著增加,這直接影響了實(shí)時(shí)交互應(yīng)用的用戶體驗(yàn)。
同時(shí),處理長上下文也意味著更高的計(jì)算和內(nèi)存開銷,為系統(tǒng)的規(guī)模化部署帶來了挑戰(zhàn)。
基于這樣的背景,Meta超級智能實(shí)驗(yàn)室的研究人員發(fā)現(xiàn),在RAG應(yīng)用中,LLM處理檢索到的多個(gè)文檔時(shí),其計(jì)算過程存在大量冗余。
通過實(shí)驗(yàn),他們觀察到模型內(nèi)部的注意力機(jī)制在處理這些文檔時(shí),呈現(xiàn)出一種“塊對角”(block-diagonal)的稀疏模式。
這意味著,模型的注意力主要集中在單個(gè)文檔內(nèi)部,以及各文檔與用戶問題之間的關(guān)聯(lián)上。而不同文檔片段之間的交叉注意力得分通常很低,表明它們之間的關(guān)聯(lián)性較弱。
然而,標(biāo)準(zhǔn)的Transformer架構(gòu)并不會(huì)區(qū)分這些關(guān)聯(lián)性的強(qiáng)弱,而是對上下文中的所有詞元(token)進(jìn)行全局的注意力計(jì)算,這導(dǎo)致了大量計(jì)算資源被消耗在分析那些關(guān)聯(lián)性很弱的文檔片段上。
基于這一觀察,研究團(tuán)隊(duì)提出:RAG解碼過程中的大部分注意力計(jì)算對于最終結(jié)果的貢獻(xiàn)有限,可以在不顯著影響性能的前提下被優(yōu)化或移除。
REFRAG,就此應(yīng)運(yùn)而生。
REFRAG:一種選擇性壓縮解碼方案
REFRAG這個(gè)框架,主要通過“壓縮(Compress)、感知(Sense)、擴(kuò)展(Expand)”的流程,優(yōu)化了LLM處理外部知識的方式。
壓縮:將上下文轉(zhuǎn)換為緊湊表征
REFRAG首先改變了上下文的呈現(xiàn)方式,它沒有將所有檢索到的原始文本直接輸入給主LLM,而是引入了一個(gè)輕量級的編碼器模型。
這個(gè)編碼器將長篇的參考資料切分為多個(gè)“塊”(chunks),并為每個(gè)“塊”生成一個(gè)緊湊的向量表示——“塊嵌入”(chunk embedding)。這個(gè)“塊嵌入”可以視為原始文本塊的濃縮摘要。
這一步驟帶來了兩個(gè)直接的好處,首先就是縮短輸入序列長度,因?yàn)長LM需要處理的輸入從數(shù)千個(gè)詞元縮減為數(shù)百個(gè)“塊嵌入”,顯著降低了后續(xù)的計(jì)算量。
其次是由于這些“塊嵌入”可以被預(yù)先計(jì)算并存儲,當(dāng)知識庫中的同一文檔被再次檢索時(shí),系統(tǒng)可以直接調(diào)用緩存的嵌入,避免了重復(fù)的編碼計(jì)算。
感知:智能判斷關(guān)鍵信息
考慮到并非所有信息都適合壓縮,某些包含關(guān)鍵細(xì)節(jié)的文本片段需要被保留。
為此,REFRAG訓(xùn)練了一個(gè)基于強(qiáng)化學(xué)習(xí)(RL)的策略網(wǎng)絡(luò)。
這個(gè)網(wǎng)絡(luò)的功能是分析所有的“塊嵌入”和用戶問題,判斷哪些文本塊包含最核心的信息,需要以原始文本的形式呈現(xiàn)給LLM。
擴(kuò)展:結(jié)合壓縮與原始文本
經(jīng)過前兩步的處理,最終輸入到主LLM的是一個(gè)混合序列,它包含了大部分上下文的“塊嵌入”(壓縮表示)和少量被判斷為關(guān)鍵的“原始文本塊”。
LLM基于這份經(jīng)過優(yōu)化的輸入材料來生成答案,大部分背景信息通過壓縮表示快速獲取,而核心細(xì)節(jié)則通過原始文本進(jìn)行精確理解。通過這種方式,REFRAG在保留關(guān)鍵信息的同時(shí),最大限度地降低了計(jì)算負(fù)載。
性能無損,效率提升
根據(jù)論文數(shù)據(jù),REFRAG框架在多個(gè)維度上取得了較為不錯(cuò)的成果。
例如在推理速度方面,以首字生成延遲(TTFT)為例,REFRAG實(shí)現(xiàn)了最高30.85倍的加速。與之前的先進(jìn)方法相比,也取得了3.75倍的提升。
這意味著在需要快速響應(yīng)的場景下,系統(tǒng)的延遲可以得到有效控制。
其次,實(shí)驗(yàn)還表明,在獲得顯著加速的同時(shí),REFRAG在困惑度(Perplexity)以及多種下游任務(wù)(如問答、摘要)的準(zhǔn)確率上,與使用完整上下文的基線模型相比沒有性能損失。
此外,由于壓縮技術(shù)使得模型能在同等計(jì)算預(yù)算下處理更多信息,上下文窗口等效擴(kuò)大了16倍,這在某些任務(wù)上反而帶來了性能增益。
據(jù)了解,這個(gè)方法的設(shè)計(jì)不僅適用于RAG,也適用于多輪對話、長文檔摘要等其他需要處理長上下文信息的任務(wù)。
總而言之,Meta超級智能實(shí)驗(yàn)室的這項(xiàng)研究,通過巧妙的算法設(shè)計(jì),有效解決了當(dāng)前大模型在處理長上下文時(shí)面臨的核心效率問題。REFRAG為開發(fā)更高效、更經(jīng)濟(jì)、更具擴(kuò)展性的AI應(yīng)用提供了一個(gè)重要的解決方案。
參考鏈接:[1]https://arxiv.org/abs/2509.01092[2]https://www.reddit.com/r/singularity/comments/1nai17r/new_research_from_meta_superintelligence_labs_big/