入圍CVPR 2026最佳論文決選，ViT³用「測試時訓練」突破Transformer複雜度瓶頸

編輯｜+0

CVPR 2026 剛在美國丹佛落下帷幕論文。16092 篇投稿中，15 篇殺入最佳論文決選（Best Paper Finalists），入圍率不足千分之一。

其中一篇來自阿里巴巴與清華大學的合作研究：《ViT³ : Unlocking Test-Time Training in Vision》論文。

它要解決的，是當前視覺模型領域最普遍的一類痛點：當影像解析度越來越高、影片越來越長、多模態輸入越來越複雜時，Transformer 逐漸算不動了論文。

ViT³ 給出了一條不同的路線論文。

在 RTX 3090 上處理 1248 × 1248 解析度影像時，ViT³-T 的推理速度達到 DeiT-T 的 4.6 倍，GPU 視訊記憶體消耗降低了 90.3%論文。

換句話說，它只使用接近十分之一的視訊記憶體，卻實現了更高的處理速度論文。

但這篇論文的意義，並不只是讓視覺模型跑得更快論文。

它真正嘗試改變的，是視覺模型儲存和呼叫上下文資訊的方式：不再單純依賴固定公式壓縮資訊，而是在處理當前輸入時，透過一次快速的線上學習，把上下文寫入一個緊湊的內部模型論文。

這條路線建立在近年來受到關注的 Test-Time Training（TTT，測試時訓練）框架之上，而 ViT³ 則進一步將其系統引入視覺領域，並梳理出一套可複用的設計原則論文。

展開全文

論文地址論文：

程式碼論文：

阿里巴巴長期關注多模態大模型與新一代互動體驗論文。隨著 AI 逐漸進入真實生活場景，模型需要處理的視覺資訊正在變得越來越複雜：更高畫質的圖片、更長的影片，以及持續增長的多模態上下文。

如何在控制算力成本的同時，讓模型看得更清楚、理解得更完整，已經成為多模態技術走向實際應用時必須面對的問題論文。ViT³ 所探索的，正是這一底層能力。

把上下文壓縮論文，變成一次臨場學習

要理解 ViT³ 的價值，需要先回到視覺模型長期面對的一組矛盾：如何在降低計算複雜度的同時，儘可能保留上下文建模能力論文。

Vision Transformer 在 2020 年被提出後，迅速成為計算機視覺中最重要的主流架構之一，並持續推動影像分類、目標檢測、語義分割和影像生成等任務的發展論文。

但標準 Softmax Attention 有一筆隨著序列長度快速膨脹的賬論文。

一張圖片進入視覺 Transformer 後，通常會被拆分成一組 token論文。圖片解析度越高，token 數量就越多。標準 Attention 需要顯式計算不同 token 之間的兩兩關係，其計算和視訊記憶體成本會隨 token 數量呈二次增長。

為便於理解論文，省略縮放係數後，標準 Attention 可以簡寫為：Softmax(QKᵀ)V

其中，Q 代表 query，K 代表 key，V 代表 value論文。真正帶來高成本的，是 QKᵀ 形成的 N × N 矩陣。

當模型處理的是普通解析度圖片時，這筆成本尚且可控論文。但一旦面對超高畫質圖片、長影片或更復雜的多模態輸入，token 序列長度迅速增加，計算和視訊記憶體開銷就會逐漸接近成本邊界。

為了降低成本，過去幾年出現了多種線性複雜度方案論文。

Linear Attention 的思路，是改變計算順序論文。它將關鍵計算從 Softmax(QKᵀ)V 改寫為 Q(KᵀV)，先把 K 和 V 壓縮成一個固定大小的狀態，再讓 Q 從中讀取資訊。由於 KᵀV 的大小與序列長度 N 無關，複雜度可以降到 O(N)。

但代價也很明顯：上下文被壓縮排一個相對簡單的線性狀態論文。壓縮效率提高了，表達能力卻可能不足，實際效能往往與標準 Transformer 存在差距。

Mamba 和狀態空間模型走了另一條路論文。它們維護一個固定大小的隱狀態，並沿著序列逐步更新。相比簡單的線性對映，這種狀態更新機制更靈活，但仍然需要回答同一個問題：當序列越來越長、全域性依賴越來越複雜時，如何把足夠豐富的資訊寫入一個容量有限的狀態？

用一個類比來說：標準 attention 是「保留全部資料，需要時重新檢索」，代價是資料越多，檢索成本越高；Linear Attention 是「提前壓縮成一份固定摘要」，速度更快，但容易遺漏細節；Mamba 則像是「一邊閱讀，一邊持續更新一份有限長度的筆記」論文。

這些方案背後長期存在一組交換條件：壓縮越激進，計算越便宜；但壓縮方式越簡單，模型越容易損失表達能力論文。

Test-Time Training 試圖改變這組交換條件論文。它不再把上下文壓縮視為一次固定的矩陣運算，而是把它改寫成一次快速的線上學習過程。

TTT Block 保留了 Transformer 的宏觀結構論文。不同之處在於，原本的 Attention 計算被替換為一次可學習的上下文壓縮與讀取過程。

具體來說，TTT 將當前輸入中的 key-value 對視為一個臨時的「迷你資料集」論文。模型在推理過程中，對一個小型內部網路進行短暫的自監督訓練，讓它學習從 K 預測 V。隨後，再使用更新後的內部網路處理 query。

換句話說，模型面對每一組新的輸入時，都會進行一次輕量級的臨場適配論文。

這也是「Test-Time Training」這個名字的來源：在測試階段，模型會針對當前輸入，短暫訓練一個內部模型，再利用它完成資訊讀取論文。

整個內部訓練過程仍然是可微的，並與外部網路一起端到端最佳化，不需要拆分成多個獨立階段論文。

線性注意力使用固定矩陣乘法壓縮上下文；TTT 則使用梯度下降壓縮上下文論文。前者是固定的線性操作，後者是一種學習驅動的非線性壓縮方式。只要內部模型的規模保持固定，整體複雜度仍然可以維持線上性水平，但資訊壓縮能力有機會進一步提高。

論文中有一張關鍵示意圖，展示了 Softmax Attention、Linear Attention 和 TTT 之間的關係論文。

Softmax Attention 可以被理解為一個寬度隨序列長度增長的內部模型；Linear Attention 對應一個固定大小的線性內部模型；TTT 則進一步允許內部模型成為可訓練的小型網路論文。

ViT³ 並不是完全拋開 Attention 另起爐灶，而是在同一個框架中，開啟了更大的設計空間論文。

Softmax Attention、Linear Attention 與 TTT 的統一視角論文。Softmax Attention 保留完整上下文，Linear Attention 將上下文壓縮為固定大小的線性狀態；TTT 則透過線上訓練，將上下文寫入一個可更新的內部模型。

在空白的設計空間裡畫出地圖

設計空間更大，意味著選擇更多，也意味著更容易走錯路論文。

在 ViT³ 之前，TTT 已經在語言模型中獲得關注，但視覺資料與語言資料並不相同論文。語言天然具有順序和因果結構。影像則是二維空間資訊，不同 token 之間不存在同樣明確的先後關係。

當 TTT 進入視覺領域後論文，一系列基礎問題都需要重新回答：內部模型應該使用什麼架構？損失函式如何選擇？應該更新多少輪？學習率應該多大？卷積和 MLP 哪一種更適合視覺任務？

ViT³ 的重要貢獻之一，是透過系統實驗梳理視覺 TTT 的設計空間，總結出六條可以複用的實踐原則，並討論了TTT 當前存在的核心挑戰和未來研究方向論文。

觀察一：內部訓練損失函式的混合二階導數不能為零論文。

TTT 的內部訓練過程要和外部網路一起做端到端最佳化，這意味著梯度要穿過內部訓練步驟回傳到外部引數論文。如果損失函式的混合二階導數為零，外部引數的梯度訊號就會在回傳中消失。MAE（L1）損失的導數是符號函式，混合二階導幾乎處處為零——實驗中它比 MSE 損失低了 2.4 個百分點。這不是一個可以透過調參彌補的小問題，它決定了某些損失函式從根本上不適用於 TTT。

觀察二：視覺任務適合全批次、單輪訓練論文。

此前 NLP 領域的 TTT 實踐發現，小批次順序更新通常更有效論文。但在視覺任務中，全批次更新表現更好。論文給出了一個有說服力的解釋：小批次順序更新會引入因果偏置——前面的 batch 影響後面的梯度，後面的更新也可能覆蓋前面的資訊。這種偏置適合具有方向性的語言資料，但對非因果的視覺資料反而是一種負擔。綜合準確率、吞吐和訓練穩定性，ViT³ 最終採用單輪全批次更新。

觀察三：在穩定的前提下，更大的內部學習率效果更好論文。

實驗表明，在訓練穩定的前提下，越大的學習率效果越好論文。太小的學習率會讓內部模型更新不充分，無法有效儲存上下文資訊；過大的學習率則容易導致訓練不穩定。

值得注意的是，在一些特殊情況下，內部學習率可以吸收為 K 和 V 的放縮論文。但是這並不內說明內部學習率的設定不重要。一個類似的例子是Softmax注意力中的

放縮，它也能夠被 Q 和 K 吸收，但是依然重要論文。

觀察四：增加內部模型容量，效能持續提升論文。

一個關鍵問題是：TTT 能不能透過簡單擴大內部模型來提升序列建模能力？為了探索這一點，論文將 TTT 內部模型實現為一個 SiLU 啟用函式的兩層 MLP，並逐漸增加其寬度論文。實驗表明，當隱藏維度 d 擴到 4d，準確率從 78.9% 提升到 79.6%，沒有飽和跡象。這是TTT 正規化的一個核心優勢，即它可以在外部模型尺寸固定的條件下，透過簡單地擴充套件內部模型尺寸來實現更好的序列建模效果。這和 Linear Attention 形成鮮明對比：後者通常將上下文壓縮排固定大小的線性狀態，表達能力和擴充套件空間相對有限。

隨著內部模型寬度增加，TTT 的效能持續提升，說明內部模型容量仍有進一步擴充套件空間論文。

觀察五：當前更深的內部模型存在最佳化困難，需要未來工作解鎖其理論潛力論文。

一個不符合預期的結果是，把內部模型從一層變成兩層、三層，引數更多、理論容量更大，但實際準確率反而下降論文。論文的分析指向最佳化困難：更深的內部模型在 TTT 的短訓練步數下容易欠擬合——訓練損失更高，測試準確率更低。當前深層網路的理論優勢在 TTT 的快速訓練場景中難以兌現。論文同時發現，如果把輸出層固定為單位矩陣（一種「約束設計」），準確率反而比完整的兩層 MLP 更高。這進一步證實了最佳化瓶頸的存在。

解決較深內部模型的最佳化問題，是 TTT 的一個重要未來方向論文。理論工作表明，神經網路的擬合能力隨深度指數增長，這正是當前神經網路成功的核心原因。因此，較深的內部模型在實現高精度測試時訓練序列建模中具有突出潛力。

增加內部模型深度，並沒有帶來更高的準確率論文。隨著層數增加，訓練損失反而更高，說明視覺 TTT 當前仍面臨內部模型最佳化瓶頸。

觀察六：卷積天然適合做視覺 TTT 的內部模型論文。

隨著 Transformer 興起，卷積不再是視覺模型中唯一佔據主導地位的結構論文。但在 TTT 框架中，它獲得了一個新的角色。TTT 把全域性上下文壓縮排內部模型的權重，當內部模型是卷積時，這些權重就是卷積核——全域性資訊被編碼在核的引數裡，而卷積操作本身又提供了區域性感受野。一次前向推理同時完成了全域性和區域性資訊的整合。實驗中，一個輕量級 3 × 3 深度卷積在引數量更少的情況下，比 MLP baseline 高出 1.2 個百分點。

這六條原則並不是相互獨立的經驗論文。

觀察一排除了一類不適用於TTT 的損失函式；觀察二和觀察三回答「應該怎麼訓練」；觀察四、觀察五和觀察六則回答「內部模型應該如何設計」論文。

它們共同構成了一份視覺 TTT 的實踐地圖：哪些方向值得未來工作繼續探索，哪些路徑容易陷入最佳化瓶頸，哪些設計能夠在效果和效率之間取得更好的平衡論文。

從分類到生成論文，

ViT³ 的優勢在高解析度下放大

基於前面的六條觀察，研究團隊最終搭建出 Vision Test-Time Training 模型，簡稱 ViT³論文。

它的整體設計並不複雜論文。

在多數 Attention head 中，ViT³ 使用一種簡化的門控內部模型，在保持易於最佳化的同時，提供比純線性狀態更強的表達能力論文。另有一個 head 引入輕量級的 3 × 3 深度卷積，使模型在壓縮全域性上下文的同時，也能夠利用影像中的區域性空間結構。

內部訓練同樣保持克制：每次只進行一輪全批次梯度更新論文。換句話說，ViT³ 沒有在推理過程中嵌入一套繁重的訓練流程，而是在控制額外成本的前提下，讓內部模型完成一次快速適配。

圍繞這一模組，論文構建了三類模型：ViT³ 採用非層級架構，對齊經典 Vision Transformer；H-ViT³ 使用四階段層級設計，更適合作為通用視覺骨幹網路；DiT³ 則將同樣的 TTT 模組放入擴散模型，用於影像生成論文。

這組設計的目標論文，不是針對某一個 benchmark 調整出更高的數字，而是驗證一個更關鍵的問題：TTT 能否成為一種可遷移的視覺序列建模模組？

從實驗結果看，答案是積極的論文。

在影像分類任務中，ViT³ 展現出有競爭力的視覺表徵能力論文。在目標檢測和語義分割等需要處理更高解析度輸入的任務中，它也能夠超過多種同級別的 Mamba 和 Linear Attention 模型。

這說明，相比將上下文壓縮排一個簡單線性狀態，ViT³ 使用更靈活的內部模型儲存資訊，能夠在控制計算成本的同時，維持較強的建模能力論文。

ViT³ 的適用範圍也沒有停留在識別任務論文。

研究團隊進一步將 TTT 模組放入擴散模型，構建出 DiT³論文。實驗顯示，在不同模型規模和 patch 配置下，DiT³ 均能夠改善原始 DiT 的影像生成質量。

這意味著，TTT 可以作為一個相對獨立的模組，進入不同型別的視覺架構論文。

但 ViT³ 最直觀的優勢，仍然來自高解析度影像論文。

在 RTX 3090 上處理 1248 × 1248 影像時，單張圖片包含 6084 個 token論文。此時，ViT³-T 的推理速度達到 DeiT-T 的 4.6 倍，GPU 視訊記憶體消耗降低了 90.3%。

原因並不複雜論文。

在低解析度輸入下，序列較短，標準 Attention 的成本仍然可以承受論文。隨著解析度提高，token 數量快速增加，標準 Softmax Attention 的計算和視訊記憶體開銷隨序列長度呈二次增長；ViT³ 則保持線性複雜度。兩條曲線之間的差距，會隨著輸入規模擴大持續拉開。

對於面向真實生活場景的多模態應用而言，這一點尤其重要論文。

當模型開始接收更高畫質的圖片、更長的影片和更復雜的視覺上下文時，序列長度會快速增加論文。單純依賴算力堆疊，很難無限持續。

這也與阿里巴巴長期關注的方向形成呼應論文。

未來的多模態互動，不只是讓模型識別一張圖片，而是需要它在真實環境中持續處理更加複雜的視覺資訊論文。無論是更自然的人機互動，還是面向生活場景的 AI 原生應用，都需要一個更具擴充套件性的視覺底座。

ViT³ 所驗證的，是另一種可能性：透過架構創新提高上下文壓縮質量，在不放棄線性複雜度優勢的前提下，儘量縮小與標準 Transformer 之間的效能差距論文。

但 ViT³ 還不是對 Transformer 的全面替代論文。

論文給出的定位相對剋制：作為一套視覺 TTT baseline，它已經超過多種線性複雜度模型，並顯著縮小了與主流視覺 Transformer 的效能差距，但仍存在進一步提升空間論文。

另一方面，4.6 倍速度提升和 90.3% 視訊記憶體節省來自 RTX 3090 上的實驗結果，證明了演算法層面的擴充套件優勢，但還不能直接等同於手機、車端等邊緣裝置上的實際部署效果論文。

更準確地說，ViT³ 為端側部署和高解析度多模態應用開啟了新的可能性，也為後續工程最佳化提供了基礎論文。

算力與效能論文，不必互斥

過去幾年，視覺模型領域逐漸形成了一種預設路徑：更好的效能，往往意味著更大的模型、更多的訓練資料和更高的算力成本論文。

線性複雜度模型雖然更加高效，但通常需要付出效能代價論文。

ViT³ 試圖重新檢驗這一前提論文。

它系統梳理了視覺 TTT 的設計空間，證明學習驅動的上下文壓縮可以覆蓋分類、檢測、分割和生成任務，並在高解析度場景下展現出更加明顯的效率優勢論文。

這也是阿里巴巴持續探索的方向論文。

當多模態模型持續走向高畫質視覺、長上下文和複雜互動論文，行業需要回答一個更長期的問題：能力增長是否只能依賴更多算力？

ViT³ 給出了另一種可能：答案也許不在更大的模型裡，而在更聰明的架構裡論文。

入圍CVPR 2026最佳論文決選，ViT³用「測試時訓練」突破Transformer複雜度瓶頸

上海偉傑國際貨物運輸代理有限公司

熱門標籤

相關詞彙