編輯|+0
CVPR 2026 剛在美國丹佛落下帷幕論文。16092 篇投稿中,15 篇殺入最佳論文決選(Best Paper Finalists),入圍率不足千分之一。
其中一篇來自阿里巴巴與清華大學的合作研究:《ViT³ : Unlocking Test-Time Training in Vision》論文。
它要解決的,是當前視覺模型領域最普遍的一類痛點:當影像解析度越來越高、影片越來越長、多模態輸入越來越複雜時,Transformer 逐漸算不動了論文。
ViT³ 給出了一條不同的路線論文。
在 RTX 3090 上處理 1248 × 1248 解析度影像時,ViT³-T 的推理速度達到 DeiT-T 的 4.6 倍,GPU 視訊記憶體消耗降低了 90.3%論文。
換句話說,它只使用接近十分之一的視訊記憶體,卻實現了更高的處理速度論文。
但這篇論文的意義,並不只是讓視覺模型跑得更快論文。
它真正嘗試改變的,是視覺模型儲存和呼叫上下文資訊的方式:不再單純依賴固定公式壓縮資訊,而是在處理當前輸入時,透過一次快速的線上學習,把上下文寫入一個緊湊的內部模型論文。
這條路線建立在近年來受到關注的 Test-Time Training(TTT,測試時訓練)框架之上,而 ViT³ 則進一步將其系統引入視覺領域,並梳理出一套可複用的設計原則論文。
展開全文
論文地址論文:
程式碼論文:
阿里巴巴長期關注多模態大模型與新一代互動體驗論文。隨著 AI 逐漸進入真實生活場景,模型需要處理的視覺資訊正在變得越來越複雜:更高畫質的圖片、更長的影片,以及持續增長的多模態上下文。
如何在控制算力成本的同時,讓模型看得更清楚、理解得更完整,已經成為多模態技術走向實際應用時必須面對的問題論文。ViT³ 所探索的,正是這一底層能力。
把上下文壓縮論文,變成一次臨場學習
要理解 ViT³ 的價值,需要先回到視覺模型長期面對的一組矛盾:如何在降低計算複雜度的同時,儘可能保留上下文建模能力論文。
Vision Transformer 在 2020 年被提出後,迅速成為計算機視覺中最重要的主流架構之一,並持續推動影像分類、目標檢測、語義分割和影像生成等任務的發展論文。
但標準 Softmax Attention 有一筆隨著序列長度快速膨脹的賬論文。
一張圖片進入視覺 Transformer 後,通常會被拆分成一組 token論文。圖片解析度越高,token 數量就越多。標準 Attention 需要顯式計算不同 token 之間的兩兩關係,其計算和視訊記憶體成本會隨 token 數量呈二次增長。
為便於理解論文,省略縮放係數後,標準 Attention 可以簡寫為:Softmax(QKᵀ)V
其中,Q 代表 query,K 代表 key,V 代表 value論文。真正帶來高成本的,是 QKᵀ 形成的 N × N 矩陣。
當模型處理的是普通解析度圖片時,這筆成本尚且可控論文。但一旦面對超高畫質圖片、長影片或更復雜的多模態輸入,token 序列長度迅速增加,計算和視訊記憶體開銷就會逐漸接近成本邊界。
為了降低成本,過去幾年出現了多種線性複雜度方案論文。
Linear Attention 的思路,是改變計算順序論文。它將關鍵計算從 Softmax(QKᵀ)V 改寫為 Q(KᵀV),先把 K 和 V 壓縮成一個固定大小的狀態,再讓 Q 從中讀取資訊。由於 KᵀV 的大小與序列長度 N 無關,複雜度可以降到 O(N)。
但代價也很明顯:上下文被壓縮排一個相對簡單的線性狀態論文。壓縮效率提高了,表達能力卻可能不足,實際效能往往與標準 Transformer 存在差距。
Mamba 和狀態空間模型走了另一條路論文。它們維護一個固定大小的隱狀態,並沿著序列逐步更新。相比簡單的線性對映,這種狀態更新機制更靈活,但仍然需要回答同一個問題:當序列越來越長、全域性依賴越來越複雜時,如何把足夠豐富的資訊寫入一個容量有限的狀態?
用一個類比來說:標準 attention 是「保留全部資料,需要時重新檢索」,代價是資料越多,檢索成本越高;Linear Attention 是「提前壓縮成一份固定摘要」,速度更快,但容易遺漏細節;Mamba 則像是「一邊閱讀,一邊持續更新一份有限長度的筆記」論文。
這些方案背後長期存在一組交換條件:壓縮越激進,計算越便宜;但壓縮方式越簡單,模型越容易損失表達能力論文。
Test-Time Training 試圖改變這組交換條件論文。它不再把上下文壓縮視為一次固定的矩陣運算,而是把它改寫成一次快速的線上學習過程。
TTT Block 保留了 Transformer 的宏觀結構論文。不同之處在於,原本的 Attention 計算被替換為一次可學習的上下文壓縮與讀取過程。
具體來說,TTT 將當前輸入中的 key-value 對視為一個臨時的「迷你資料集」論文。模型在推理過程中,對一個小型內部網路進行短暫的自監督訓練,讓它學習從 K 預測 V。隨後,再使用更新後的內部網路處理 query。
換句話說,模型面對每一組新的輸入時,都會進行一次輕量級的臨場適配論文。
這也是「Test-Time Training」這個名字的來源:在測試階段,模型會針對當前輸入,短暫訓練一個內部模型,再利用它完成資訊讀取論文。
整個內部訓練過程仍然是可微的,並與外部網路一起端到端最佳化,不需要拆分成多個獨立階段論文。
線性注意力使用固定矩陣乘法壓縮上下文;TTT 則使用梯度下降壓縮上下文論文。前者是固定的線性操作,後者是一種學習驅動的非線性壓縮方式。只要內部模型的規模保持固定,整體複雜度仍然可以維持線上性水平,但資訊壓縮能力有機會進一步提高。
論文中有一張關鍵示意圖,展示了 Softmax Attention、Linear Attention 和 TTT 之間的關係論文。
Softmax Attention 可以被理解為一個寬度隨序列長度增長的內部模型;Linear Attention 對應一個固定大小的線性內部模型;TTT 則進一步允許內部模型成為可訓練的小型網路論文。
ViT³ 並不是完全拋開 Attention 另起爐灶,而是在同一個框架中,開啟了更大的設計空間論文。
Softmax Attention、Linear Attention 與 TTT 的統一視角論文。Softmax Attention 保留完整上下文,Linear Attention 將上下文壓縮為固定大小的線性狀態;TTT 則透過線上訓練,將上下文寫入一個可更新的內部模型。
在空白的設計空間裡畫出地圖
設計空間更大,意味著選擇更多,也意味著更容易走錯路論文。
在 ViT³ 之前,TTT 已經在語言模型中獲得關注,但視覺資料與語言資料並不相同論文。語言天然具有順序和因果結構。影像則是二維空間資訊,不同 token 之間不存在同樣明確的先後關係。
當 TTT 進入視覺領域後論文,一系列基礎問題都需要重新回答:內部模型應該使用什麼架構?損失函式如何選擇?應該更新多少輪?學習率應該多大?卷積和 MLP 哪一種更適合視覺任務?
ViT³ 的重要貢獻之一,是透過系統實驗梳理視覺 TTT 的設計空間,總結出六條可以複用的實踐原則,並討論了TTT 當前存在的核心挑戰和未來研究方向論文。
觀察一:內部訓練損失函式的混合二階導數不能為零論文。
TTT 的內部訓練過程要和外部網路一起做端到端最佳化,這意味著梯度要穿過內部訓練步驟回傳到外部引數論文。如果損失函式的混合二階導數為零,外部引數的梯度訊號就會在回傳中消失。MAE(L1)損失的導數是符號函式,混合二階導幾乎處處為零——實驗中它比 MSE 損失低了 2.4 個百分點。這不是一個可以透過調參彌補的小問題,它決定了某些損失函式從根本上不適用於 TTT。
觀察二:視覺任務適合全批次、單輪訓練論文。
此前 NLP 領域的 TTT 實踐發現,小批次順序更新通常更有效論文。但在視覺任務中,全批次更新表現更好。論文給出了一個有說服力的解釋:小批次順序更新會引入因果偏置——前面的 batch 影響後面的梯度,後面的更新也可能覆蓋前面的資訊。這種偏置適合具有方向性的語言資料,但對非因果的視覺資料反而是一種負擔。綜合準確率、吞吐和訓練穩定性,ViT³ 最終採用單輪全批次更新。
觀察三:在穩定的前提下,更大的內部學習率效果更好論文。
實驗表明,在訓練穩定的前提下,越大的學習率效果越好論文。太小的學習率會讓內部模型更新不充分,無法有效儲存上下文資訊;過大的學習率則容易導致訓練不穩定。
值得注意的是,在一些特殊情況下,內部學習率可以吸收為 K 和 V 的放縮論文。但是這並不內說明內部學習率的設定不重要。一個類似的例子是Softmax注意力中的
放縮,它也能夠被 Q 和 K 吸收,但是依然重要論文。
觀察四:增加內部模型容量,效能持續提升論文。
一個關鍵問題是:TTT 能不能透過簡單擴大內部模型來提升序列建模能力?為了探索這一點,論文將 TTT 內部模型實現為一個 SiLU 啟用函式的兩層 MLP,並逐漸增加其寬度論文。實驗表明,當隱藏維度 d 擴到 4d,準確率從 78.9% 提升到 79.6%,沒有飽和跡象。這是TTT 正規化的一個核心優勢,即它可以在外部模型尺寸固定的條件下,透過簡單地擴充套件內部模型尺寸來實現更好的序列建模效果。這和 Linear Attention 形成鮮明對比:後者通常將上下文壓縮排固定大小的線性狀態,表達能力和擴充套件空間相對有限。
隨著內部模型寬度增加,TTT 的效能持續提升,說明內部模型容量仍有進一步擴充套件空間論文。
觀察五:當前更深的內部模型存在最佳化困難,需要未來工作解鎖其理論潛力論文。
一個不符合預期的結果是,把內部模型從一層變成兩層、三層,引數更多、理論容量更大,但實際準確率反而下降論文。論文的分析指向最佳化困難:更深的內部模型在 TTT 的短訓練步數下容易欠擬合——訓練損失更高,測試準確率更低。當前深層網路的理論優勢在 TTT 的快速訓練場景中難以兌現。論文同時發現,如果把輸出層固定為單位矩陣(一種「約束設計」),準確率反而比完整的兩層 MLP 更高。這進一步證實了最佳化瓶頸的存在。
解決較深內部模型的最佳化問題,是 TTT 的一個重要未來方向論文。理論工作表明,神經網路的擬合能力隨深度指數增長,這正是當前神經網路成功的核心原因。因此,較深的內部模型在實現高精度測試時訓練序列建模中具有突出潛力。
增加內部模型深度,並沒有帶來更高的準確率論文。隨著層數增加,訓練損失反而更高,說明視覺 TTT 當前仍面臨內部模型最佳化瓶頸。
觀察六:卷積天然適合做視覺 TTT 的內部模型論文。
隨著 Transformer 興起,卷積不再是視覺模型中唯一佔據主導地位的結構論文。但在 TTT 框架中,它獲得了一個新的角色。TTT 把全域性上下文壓縮排內部模型的權重,當內部模型是卷積時,這些權重就是卷積核——全域性資訊被編碼在核的引數裡,而卷積操作本身又提供了區域性感受野。一次前向推理同時完成了全域性和區域性資訊的整合。實驗中,一個輕量級 3 × 3 深度卷積在引數量更少的情況下,比 MLP baseline 高出 1.2 個百分點。
這六條原則並不是相互獨立的經驗論文。
觀察一排除了一類不適用於TTT 的損失函式;觀察二和觀察三回答「應該怎麼訓練」;觀察四、觀察五和觀察六則回答「內部模型應該如何設計」論文。
它們共同構成了一份視覺 TTT 的實踐地圖:哪些方向值得未來工作繼續探索,哪些路徑容易陷入最佳化瓶頸,哪些設計能夠在效果和效率之間取得更好的平衡論文。
從分類到生成論文,
ViT³ 的優勢在高解析度下放大
基於前面的六條觀察,研究團隊最終搭建出 Vision Test-Time Training 模型,簡稱 ViT³論文。
它的整體設計並不複雜論文。
在多數 Attention head 中,ViT³ 使用一種簡化的門控內部模型,在保持易於最佳化的同時,提供比純線性狀態更強的表達能力論文。另有一個 head 引入輕量級的 3 × 3 深度卷積,使模型在壓縮全域性上下文的同時,也能夠利用影像中的區域性空間結構。
內部訓練同樣保持克制:每次只進行一輪全批次梯度更新論文。換句話說,ViT³ 沒有在推理過程中嵌入一套繁重的訓練流程,而是在控制額外成本的前提下,讓內部模型完成一次快速適配。
圍繞這一模組,論文構建了三類模型:ViT³ 採用非層級架構,對齊經典 Vision Transformer;H-ViT³ 使用四階段層級設計,更適合作為通用視覺骨幹網路;DiT³ 則將同樣的 TTT 模組放入擴散模型,用於影像生成論文。
這組設計的目標論文,不是針對某一個 benchmark 調整出更高的數字,而是驗證一個更關鍵的問題:TTT 能否成為一種可遷移的視覺序列建模模組?
從實驗結果看,答案是積極的論文。
在影像分類任務中,ViT³ 展現出有競爭力的視覺表徵能力論文。在目標檢測和語義分割等需要處理更高解析度輸入的任務中,它也能夠超過多種同級別的 Mamba 和 Linear Attention 模型。
這說明,相比將上下文壓縮排一個簡單線性狀態,ViT³ 使用更靈活的內部模型儲存資訊,能夠在控制計算成本的同時,維持較強的建模能力論文。
ViT³ 的適用範圍也沒有停留在識別任務論文。
研究團隊進一步將 TTT 模組放入擴散模型,構建出 DiT³論文。實驗顯示,在不同模型規模和 patch 配置下,DiT³ 均能夠改善原始 DiT 的影像生成質量。
這意味著,TTT 可以作為一個相對獨立的模組,進入不同型別的視覺架構論文。
但 ViT³ 最直觀的優勢,仍然來自高解析度影像論文。
在 RTX 3090 上處理 1248 × 1248 影像時,單張圖片包含 6084 個 token論文。此時,ViT³-T 的推理速度達到 DeiT-T 的 4.6 倍,GPU 視訊記憶體消耗降低了 90.3%。
原因並不複雜論文。
在低解析度輸入下,序列較短,標準 Attention 的成本仍然可以承受論文。隨著解析度提高,token 數量快速增加,標準 Softmax Attention 的計算和視訊記憶體開銷隨序列長度呈二次增長;ViT³ 則保持線性複雜度。兩條曲線之間的差距,會隨著輸入規模擴大持續拉開。
對於面向真實生活場景的多模態應用而言,這一點尤其重要論文。
當模型開始接收更高畫質的圖片、更長的影片和更復雜的視覺上下文時,序列長度會快速增加論文。單純依賴算力堆疊,很難無限持續。
這也與阿里巴巴長期關注的方向形成呼應論文。
未來的多模態互動,不只是讓模型識別一張圖片,而是需要它在真實環境中持續處理更加複雜的視覺資訊論文。無論是更自然的人機互動,還是面向生活場景的 AI 原生應用,都需要一個更具擴充套件性的視覺底座。
ViT³ 所驗證的,是另一種可能性:透過架構創新提高上下文壓縮質量,在不放棄線性複雜度優勢的前提下,儘量縮小與標準 Transformer 之間的效能差距論文。
但 ViT³ 還不是對 Transformer 的全面替代論文。
論文給出的定位相對剋制:作為一套視覺 TTT baseline,它已經超過多種線性複雜度模型,並顯著縮小了與主流視覺 Transformer 的效能差距,但仍存在進一步提升空間論文。
另一方面,4.6 倍速度提升和 90.3% 視訊記憶體節省來自 RTX 3090 上的實驗結果,證明了演算法層面的擴充套件優勢,但還不能直接等同於手機、車端等邊緣裝置上的實際部署效果論文。
更準確地說,ViT³ 為端側部署和高解析度多模態應用開啟了新的可能性,也為後續工程最佳化提供了基礎論文。
算力與效能論文,不必互斥
過去幾年,視覺模型領域逐漸形成了一種預設路徑:更好的效能,往往意味著更大的模型、更多的訓練資料和更高的算力成本論文。
線性複雜度模型雖然更加高效,但通常需要付出效能代價論文。
ViT³ 試圖重新檢驗這一前提論文。
它系統梳理了視覺 TTT 的設計空間,證明學習驅動的上下文壓縮可以覆蓋分類、檢測、分割和生成任務,並在高解析度場景下展現出更加明顯的效率優勢論文。
這也是阿里巴巴持續探索的方向論文。
當多模態模型持續走向高畫質視覺、長上下文和複雜互動論文,行業需要回答一個更長期的問題:能力增長是否只能依賴更多算力?
ViT³ 給出了另一種可能:答案也許不在更大的模型裡,而在更聰明的架構裡論文。