目前,所有主流 LLM 都有一個(gè)固定的上下文窗口(如 200k, 1M tokens)。一旦輸入超過這個(gè)限制,模型就無法處理。
即使在窗口內(nèi),當(dāng)上下文變得非常長(zhǎng)時(shí),模型的性能也會(huì)急劇下降,這種現(xiàn)象被稱為「上下文腐爛」(Context Rot):模型會(huì)「忘記」開頭的信息,或者整體推理能力下降。
這種現(xiàn)象在現(xiàn)實(shí)使用中遠(yuǎn)比在標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試中更明顯。當(dāng)用戶與 ChatGPT 等主流 LLM 進(jìn)行長(zhǎng)時(shí)間、多輪的復(fù)雜對(duì)話時(shí),會(huì)明顯感覺到模型開始變「笨」,變得難以聚焦、遺忘關(guān)鍵信息。

來自 MIT 的研究者從一個(gè)直觀的想法出發(fā):也許可以把超長(zhǎng)上下文切分,分別交給模型處理,再在后續(xù)調(diào)用中合并結(jié)果,以此避免衰退問題?
基于此,他們提出了遞歸語言模型(Recursive Language Models,RLMs),這是一種通用的推理策略:語言模型將輸入上下文視作變量,對(duì)其進(jìn)行分解并遞歸式交互。
- 將上下文視為一個(gè)可操作的「變量」:主模型(root LM)在一個(gè)類似 Jupyter Notebook 的編程環(huán)境(REPL)中工作,完整的上下文只是一個(gè)它能用代碼訪問的變量,而不是直接的輸入。
- 遞歸調(diào)用自身或小模型:主模型可以編寫代碼來查看、切分、過濾(比如用 grep)這個(gè)巨大的上下文變量,然后把小塊的任務(wù)外包給一個(gè)個(gè)小的、臨時(shí)的 LLM 調(diào)用(遞歸調(diào)用)。
- 綜合結(jié)果:主模型收集這些「外包」任務(wù)的結(jié)果,最終形成答案。
研究者還設(shè)計(jì)了一個(gè)具體實(shí)現(xiàn):在一個(gè) Python REPL 環(huán)境中調(diào)用 GPT-5 或 GPT-5-mini,并將用戶的 prompt 存入變量中進(jìn)行迭代式處理。
結(jié)果很驚人:在能獲取到的最難的長(zhǎng)上下文評(píng)測(cè)集之一 OOLONG 上,使用 GPT-5-mini 的 RLM 正確答案數(shù)量是直接使用 GPT-5 的兩倍以上,而且平均每次調(diào)用的成本更低。
研究者還基于 BrowseComp-Plus 構(gòu)建了一個(gè)全新的長(zhǎng)上下文 Deep Research 任務(wù)。在該任務(wù)中,RLM 顯著優(yōu)于 ReAct + 推理時(shí)索引 / 檢索等方法。令人意外的是,即使推理時(shí)輸入超過 1000 萬 tokens,RLM 的性能也沒有出現(xiàn)衰減。
他們相信,RLM 很快會(huì)成為一個(gè)強(qiáng)大的范式
同時(shí),相比于僅依賴 CoT 或 ReAct 風(fēng)格的代理模型,顯式訓(xùn)練以遞歸式推理為核心機(jī)制的 RLM,很可能成為推理時(shí)擴(kuò)展能力領(lǐng)域的下一個(gè)里程碑
