Copyright 2018-2025 汽車星 版權所有 京ICP備2019162790號
在NeurIPS 2025論文中,來自「南京理工大學、中南大學、南京林業大學」的研究團隊提出了一個極具突破性的框架——VIST(Vision-centric Token Compression in LLM),為大語言模型的長文本高效推理提供了全新的「視覺解決方案」。值得注意的是,這一思路與近期引起廣泛關注的DeepSeek-OCR的核心理念不謀而合。
在處理短文本時,大語言模型(LLM)已經表現出驚人的理解和生成能力。但現實世界中的許多任務——如長文檔理解、復雜問答、檢索增強生成(RAG)等——都需要模型處理成千上萬甚至幾十萬長度的上下文。
與此同時,模型參數規模也從數十億一路飆升至萬億級別。
在「上下文長度激增」與「模型參數量膨脹」的雙重挑戰下,Token壓縮不再是優化項,而是必需品。
若不能有效縮減輸入規模,即便最強大的大語言模型,也難以高效處理我們需要它分析的海量信息。
南京理工大學、中南大學、南京林業大學的研究人員提出VIST(Vision-centric Token Compression in LLM)框架,正是為了解決這一痛點。