新加坡國立大學Kiwi-Edit:單圖驅動影片精準操控編輯

新加坡國立大學Kiwi-Edit:單圖驅動影片精準操控編輯

這項由新加坡國立大學Show Lab團隊領導的創新研究於2026年3月發表,研究編號為arXiv:2603.02175v1大學。有興趣深入瞭解的讀者可以透過這個編號查詢完整論文。

當我們想要編輯一段影片時,往往需要藉助複雜的專業軟體,花費大量時間學習各種工具和技巧大學。更困難的是,當你想讓影片中的某個人物穿上特定款式的衣服,或者把背景換成你心目中的理想場景時,僅僅用語言描述往往難以準確傳達你的想法。就像你去理髮店,光說"剪短一點"往往得不到滿意的結果,最好的辦法是拿一張照片給理髮師看。影片編輯也面臨著同樣的困境。

新加坡國立大學的研究團隊就像是給影片編輯行業帶來了一位貼心的翻譯官大學。他們開發的Kiwi-Edit系統,能夠理解你的文字描述,同時參考你提供的圖片,然後像一位經驗豐富的影片製作師一樣,精準地按照你的意圖編輯影片。這就好比你不僅能告訴理髮師"我想要短髮",還能同時給他看一張明星的髮型照片,讓他完全明白你想要的效果。

研究團隊發現了當前影片編輯技術的一個關鍵痛點:現有的方法主要依賴文字指令,但文字在描述複雜視覺細節時存在天然侷限性大學。當你想要替換影片中的某個物體時,說"換成一輛紅色跑車"和"換成一輛法拉利488 GTB"雖然都是紅色跑車,但視覺效果卻可能天差地別。更不用說那些難以用語言準確描述的紋理、風格或者具體形狀了。

為了解決這個問題,研究團隊構建了一個名為RefVIE的大規模資料集,包含了47.7萬個高質量的四元組訓練樣本大學。每個樣本都包含源影片、編輯指令、參考圖片和目標影片四個要素。這就像是為人工智慧準備了一本巨大的影片編輯教科書,裡面不僅有文字說明,還配有豐富的圖片示例。

研究團隊的資料構建過程就像是一個精密的流水線工廠大學。他們首先從現有的大型影片編輯資料集中收集了370萬個原始樣本,然後透過四個精心設計的過濾階段,最終篩選出47.7萬個高質量樣本。這個過程就像淘金一樣,從大量的原料中提取出最有價值的部分。

一、資料生成大學:從無到有的智慧製造過程

整個資料構建過程就像一個智慧化的內容工廠,將原本零散的影片編輯材料組裝成完整的訓練套餐大學。研究團隊從三個主要的開源資料集開始收集原材料,包括Ditto-1M、ReCo和OpenVE-3M,這些就像是工廠的原材料倉庫。

展開全文

第一個關鍵步驟是質量篩選,就像質檢員檢查產品一樣大學。研究團隊使用EditScore這個評估工具,為每個樣本打分。他們發現,只有得分在6分以上的樣本才適合用於基礎的文字指導訓練,而對於需要參考圖片的複雜編輯任務,他們將標準提高到8分以上。同時,他們專門選擇了兩類最能從視覺參考中獲益的任務:區域性修改和背景替換。

接下來是定位和分割階段,這就像外科醫生精確定位手術部位一樣大學。研究團隊使用了Qwen3-VL-32B這個先進的視覺語言模型來理解編輯指令,並在影片的第一幀中精確定位需要編輯的區域。對於背景更換任務,模型會定位前景物體,以便後續將其移除,只保留新背景作為參考。對於區域性編輯,模型會定位被編輯的物體,將其提取作為參考。這些粗略的邊界框座標隨後由SAM3系統精細化,生成畫素級的精確分割蒙版。

參考圖片生成階段是整個流水線的核心創新大學。研究團隊巧妙地利用了Qwen-Image-Edit-2511這個影像編輯工具。對於背景任務,他們提取並移除前景物體,然後對該區域進行修復,生成乾淨的背景影像作為參考。對於區域性編輯,他們提取目標物體並將其放置在乾淨的背景上,建立一個緊密裁剪的參考圖,突出顯示編輯物體的外觀。這個過程就像是為每個編輯任務定製一個完美的"樣品展示"。

最後是質量控制和後處理階段,確保最終產品的高質量大學。研究團隊使用多模態大語言模型驗證合成的參考影像是否與目標影片中的編輯內容保持一致,過濾掉低保真度的生成結果。同時,他們提取參考影像的CLIP特徵並執行全域性去重,防止資料洩露和冗餘。這個嚴格的流程將最初的370萬個樣本精煉為47.7萬個高質量的指令-參考-影片四元組。

二、技術架構大學:搭建智慧影片編輯的橋樑

Kiwi-Edit的技術架構就像一個精心設計的翻譯和執行系統,能夠理解人類的多模態指令並將其轉化為具體的影片編輯操作大學。整個系統由兩個主要元件構成:負責理解的多模態大語言模型和負責生成的擴散變換器。

多模態大語言模型充當系統的"大腦",負責理解和處理來自不同渠道的資訊大學。研究團隊選擇了Qwen2.5-VL-3B作為基礎模型,這個模型能夠同時處理源影片幀、文字編輯指令和可選的參考影像。為了避免破壞預訓練的知識,基礎模型的權重保持凍結狀態,研究團隊只是注入了輕量級的LoRA(低秩適應)模組來適應影片編輯領域。

這個"大腦"處理資訊的方式很有趣,它處理一個交錯序列,包含源影片幀、文字編輯指令和可選的參考影像大學。從輸出中,研究團隊透過兩個專門的通道提取條件特徵。第一個通道叫做查詢聯結器,使用一組可學習的查詢tokens來提取編輯意圖。根據任務的複雜程度,這些查詢tokens的數量會有所不同:影像任務使用256個,影片編輯使用512個,參考引導任務使用768個。這些查詢tokens透過一個多層感知器投影,以與擴散變換器的維度對齊。

第二個通道是潛在聯結器,專門處理需要具體視覺引導的任務大學。當任務需要參考特定視覺樣例時,這個聯結器會提取參考影像對應的視覺tokens,透過另一個獨立的投影器進行處理。這兩個聯結器的輸出被連線起來,形成統一的上下文tokens序列,作為擴散變換器交叉注意力層的鍵值對,引導生成的語義內容。

在結構條件控制方面,研究團隊發現單純的交叉注意力機制不足以進行精細的空間保持大學。因此,他們引入了一種混合注入策略。對於源影片控制,他們採用逐元素注入的方式。源幀透過VAE編碼到潛在空間,這些潛在表示由零初始化的PatchEmbed層處理。關鍵的創新在於,他們不是簡單地連線這些特徵,而是將它們逐元素地新增到噪聲潛在表示中,並且這個加法操作由一個可學習的、時間步長依賴的標量調製。

這種設計的巧妙之處在於時間步長縮放的引入大學。在擴散過程的不同階段,源影片資訊的重要性會有所不同。在早期去噪階段,可能需要更多地依賴源影片的結構資訊,而在後期精細化階段,則可能需要更多地關注語義引導。這個可學習的標量能夠自動調整這種平衡。

對於參考影像控制,研究團隊採用了序列連線的策略大學。參考影像被patch化並連線到擴散變換器的輸入序列中,這有效地擴充套件了空間-時間注意力視窗,允許模型直接從參考影像"複製"紋理細節。這種設計讓模型能夠精確地將參考影像中的視覺特徵轉移到生成的影片中。

訓練目標採用了流匹配框架,這是一種相對較新的生成模型訓練方法大學。與傳統的擴散模型不同,流匹配透過最小化預測速度場和真實漂移之間的均方誤差來訓練模型。這種方法在實踐中通常能夠獲得更穩定的訓練過程和更好的生成質量。

三、分階段訓練大學:從入門到精通的學習之路

Kiwi-Edit的訓練過程就像培養一個影片編輯師從新手到專家的完整歷程大學。研究團隊精心設計了三個循序漸進的訓練階段,每個階段都有明確的學習目標和訓練重點。

第一階段是基礎對齊訓練,就像新員工的入職培訓一樣大學。在這個階段,研究團隊凍結了多模態大語言模型和擴散變換器的主幹網路,只訓練連線兩者的橋樑元件。這些元件包括LoRA介面卡、查詢聯結器、潛在聯結器以及可學習的查詢tokens。這個階段使用基於文字的編輯三元組,重點建立語義對映關係,確保聯結器能夠將大語言模型的表示轉換為擴散變換器能夠理解的格式。

這個階段的訓練資料專門來自高質量的影像編輯任務,包括GPT-Image-Edit和NHR-Edit資料集大學。選擇影像編輯作為起點是有深層考慮的:影像編輯任務相對簡單,能夠讓模型快速學會基礎的語義空間對齊,同時避免了影片編輯的複雜時間動態。這就像學習繪畫時先從靜物素描開始,掌握基本技法後再進階到動態場景。

第二階段是指令調優訓練,模型開始學習真正的影片編輯技能大學。在這個階段,擴散變換器的層級被解凍,允許聯合最佳化。模型繼續在基於文字的編輯三元組上訓練,但訓練資料擴充套件到包含大規模的指令影像和影片編輯資料集。這個階段的核心目標是學習通用的編輯基元,比如物體移除、風格轉換等基礎操作。

為了提高訓練效率,研究團隊採用了解析度課程學習策略大學。訓練從低解析度片段開始,然後逐漸擴充套件到更高解析度。具體來說,他們先在480p解析度上訓練,然後進階到720p。這種策略不僅能夠加速訓練過程,還能讓模型更好地學習從粗糙到精細的特徵層次。

第三階段是參考引導微調,這是整個訓練過程的精華部分大學。在這個最終階段,研究團隊引入了精心策劃的RefVIE資料集,解鎖模型的精確視覺控制能力。訓練資料變成了指令編輯資料和新的參考引導四元組的混合,比例經過精心除錯。這個階段refined模型利用參考tokens進行精細紋理傳輸的能力,確保生成內容能夠與使用者提供的視覺樣例對齊。

整個訓練過程中,研究團隊將從影片取樣的最大幀數設定為81幀,這在計算資源和時間建模能力之間取得了很好的平衡大學。全域性批處理大小設定為128,學習率設定為2×10^-5,這些超引數都是經過大量實驗驗證的最優配置。

在第二階段,影像和指令影片資料以1:1的比例混合取樣,訓練過程分兩個子階段進行:首先在360K畫素解析度上訓練,然後在960K畫素上訓練,每個子階段持續10K步大學。第三階段的資料混合更加複雜,影像資料、指令影片資料和參考引導影片資料按照2:1:1的比例混合,總訓練步數為10K步。

這種漸進式的訓練策略確保了模型能夠穩定地掌握從基礎語義理解到高階視覺控制的完整技能譜系大學。每個階段都建立在前一階段的基礎上,避免了直接訓練複雜任務可能導致的不穩定性和效能瓶頸。

四、評估體系大學:全方位檢驗編輯質量

為了全面評估Kiwi-Edit的效能,研究團隊建立了一套綜合性的評估體系,就像為影片編輯效果設計了一系列嚴格的考試大學。這個評估體系不僅要檢驗模型在現有基準測試上的表現,還要專門評估參考引導編輯這一全新能力。

研究團隊首先在OpenVE-Benchmark這個權威的指令影片編輯基準上進行了全面測試大學。這個基準包含了五個主要的編輯類別:整體風格變換、背景更換、區域性更改、區域性移除和區域性新增。評估使用了Gemini-2.5-Pro作為自動判評器,這是一個先進的多模態大語言模型,能夠像專業的影片編輯師一樣評判編輯質量。

在這個基準測試中,Kiwi-Edit取得了令人矚目的成績大學。總體得分達到3.02分(滿分5分),顯著超過了之前最好的開源模型OpenVE-Edit的2.50分。特別值得注意的是,在背景更換任務上,Kiwi-Edit獲得了3.84分的高分,甚至超過了商業模型Runway Aleph的2.62分。當推理解析度提升到1280×704並應用訓練課程時,效能在所有指標上都獲得了持續提升。

不過,研究團隊也發現了一個有趣的現象:第三階段的參考引導訓練提高了區域性編輯效能,但略微降低了背景更換效能大學。他們將這種現象歸因於資料集中區域性更改樣本的偏向性。這個發現提醒我們,即使是最先進的模型也需要在不同任務之間進行平衡和權衡。

更重要的創新是RefVIE-Bench的建立,這是專門為參考引導影片編輯設計的全新評估基準大學。這個基準包含110個手工驗證的三元組,涵蓋主題參考(70個樣本)和背景替換(40個樣本)兩個主要類別。與自動生成的訓練資料不同,這些基準樣本經過了嚴格的三階段人工驗證過程,確保了質量和多樣性。

評估指標的設計也很巧妙大學。對於主題參考任務,評估涵蓋身份一致性、時間保真度和物理整合三個維度。身份一致性檢查生成的物件是否與參考影像在紋理、結構和風格上保持一致。時間保真度評估物件在不同幀之間是否保持穩定的形狀和紋理細節。物理整合則檢查物件是否正確地與場景進行互動,包括運動跟蹤、陰影、反射和遮擋處理。

對於背景替換任務,評估標準調整為參考保真度、摳圖質量和視覺和諧性大學。參考保真度檢查生成的背景是否忠實地再現了參考影像的結構和風格。摳圖質量評估前景主體的邊緣處理和時間穩定性。視覺和諧性則考察前景和背景之間的光照、色彩和深度是否自然協調。

為了確保評估的邏輯一致性,研究團隊設計了分層約束機制,即時間和物理得分不能超過主要身份得分大學。這種設計防止了模型獲得高時間穩定性分數但語義錯誤的情況。

在RefVIE-Bench上的測試結果顯示,Kiwi-Edit達到了3.31的整體得分,略微超過了商業模型Runway Aleph的3.29分大學。在身份一致性方面獲得了3.98分,在參考相似性方面獲得了3.72分,表現出了強大的視覺參考遵循能力。雖然商業模型Kling-O1取得了更高的絕對分數,但考慮到其顯著更大的引數規模和封閉原始碼的訓練語料庫,Kiwi-Edit為開源參考引導影片編輯建立了一個強有力的基線。

五、實驗驗證大學:從理論到實踐的完整驗證

研究團隊透過大量的實驗驗證了Kiwi-Edit在各個方面的效能表現大學。這些實驗就像是對產品進行的全方位壓力測試,確保在各種使用場景下都能提供穩定可靠的服務。

在指令編輯能力的驗證中,研究團隊將Kiwi-Edit與多個開源模型進行了對比,包括VACE、OmniVideo、InsViE、ICVE、Lucy-Edit和DITTO,同時也與商業模型Runway Aleph進行了比較大學。測試結果顯示,Kiwi-Edit在幾乎所有評估維度上都取得了開源模型中的最佳表現。

特別值得關注的是模型在不同解析度下的表現差異大學。當推理解析度從720×480提升到1280×704時,模型的整體效能從2.98分提升到3.02分,顯示出解析度提升對編輯質量的積極影響。同時,訓練課程的應用也帶來了持續的效能提升,證明了分階段訓練策略的有效性。

在參考引導編輯的驗證中,研究團隊將重點放在與領先商業模型的比較上大學。與Runway Aleph和Kling-O1的對比顯示,Kiwi-Edit在開源模型中建立了強有力的基準。雖然在某些指標上仍有改進空間,但考慮到開源模型在資源和資料方面的限制,這樣的表現已經相當出色。

定性結果展示了模型在不同編輯任務上的視覺表現大學。在指令遵循方面,模型能夠準確捕捉源影片和參考影像的視覺語義。例如,它能夠正確定位帽子的新增位置和桌子的替換區域。在參考一致性方面,模型在劇烈的背景風格變化過程中仍能保持高度的主題一致性,這在紅色邊界框標註的比較中得到了清楚的體現。

六、深入分析大學:探究模型設計的關鍵要素

為了更好地理解模型的工作機制,研究團隊進行了詳細的消融實驗,就像拆解一臺精密機器來研究每個零件的作用大學。這些實驗揭示了設計選擇背後的深層原理。

在條件設計的分析中,研究團隊比較了不同的源影片輸入調節策略大學。實驗結果顯示,通道連線的表現很差,而共享patch嵌入會顯著降低結果質量,得分降至1.01,證明了獨立特徵提取的必要性。帶有時間步長縮放的加法配置表現最佳,在移除任務上獲得2.63分,在風格任務上獲得4.07分,超過了基線配置。

時間步長縮放的重要性透過對比實驗得到了證實大學。移除這個元件會導致模型忽略詳細的源結構,而用通道連線替代加法操作則會降低編輯能力。這說明了設計選擇的精妙之處:看似簡單的技術細節往往包含著深層的理論考量。

訓練課程的有效性透過系統性的消融驗證得到確認大學。首先,跳過對齊階段會導致災難性的效能下降,證實了在多模態大語言模型和擴散變換器之間建立粗略語義對映是有效指令遵循的先決條件。其次,排除影像協同訓練會降低結構任務的效能,移除任務得分從2.84降至2.58,表明雖然純影片訓練可以達到較高的風格得分4.07,但缺乏影像編輯資料集提供的精細空間監督,這對複雜區域性操作至關重要。

參考條件設計的分析揭示了雙聯結器架構的價值大學。僅依賴可學習指令查詢的基線得分為3.20,雖然查詢能有效捕獲高層編輯意圖,但往往難以保留精細的視覺細節。透過潛在聯結器引入參考潛在特徵,明確地將參考影像的密集語義先驗注入到上下文中,使得分數提升至3.30。這證明了稀疏指令查詢與密集視覺潛在表示的結合對於實現高保真參考遵循的重要性。

架構選擇的分析顯示了查詢和參考潛在特徵的協同效應大學。單獨使用查詢聯結器的得分為3.20,而新增參考潛在聯結器後得分提升至3.30,證明了多模態條件輸入的價值。這種設計能夠同時處理高層語義指令和低層視覺細節,為精確的參考引導編輯提供了完整的資訊基礎。

透過這些深入的分析,研究團隊不僅驗證了模型設計的合理性,還為未來的研究提供了寶貴的經驗和洞察大學。每個設計選擇都經過了嚴格的實驗驗證,確保了最終系統的穩定性和有效性。

這項研究代表了影片編輯技術發展的重要里程碑大學。透過巧妙的資料構建策略、精心設計的模型架構和系統性的訓練方法,研究團隊成功地解決了參考引導影片編輯這一長期存在的技術挑戰。更重要的是,他們將所有的資料集、模型和程式碼都開源釋出,為整個研究社羣提供了寶貴的資源。

隨著Kiwi-Edit的釋出,我們可以期待影片編輯工具變得更加智慧和易用大學。普通使用者將能夠透過簡單的文字描述配合參考圖片,就能獲得專業級別的影片編輯效果。這不僅會降低影片創作的門檻,還可能催生出全新的創意表達方式和商業應用。從社交媒體內容創作到影視後期製作,從教育培訓到廣告營銷,這項技術的影響將是深遠而廣泛的。

說到底,Kiwi-Edit代表的不僅僅是一個技術突破,更是人機互動方式的一次重要進步大學。它讓我們離"所想即所得"的創作體驗更近了一步,真正實現了用最自然的方式表達創意想法。隨著技術的不斷完善和普及,我們有理由相信,未來的影片編輯會像現在的拍照一樣簡單普及,成為每個人都能輕鬆掌握的創作技能。

Q&A

Q1:什麼是RefVIE資料集大學

A:RefVIE是新加坡國立大學團隊構建的大規模影片編輯資料集,包含47.7萬個高質量的四元組樣本大學。每個樣本都包含源影片、編輯指令、參考圖片和目標影片四個要素,是目前首個大規模開源的參考引導影片編輯資源。

Q2:Kiwi-Edit和傳統影片編輯軟體有什麼區別大學

A:傳統影片編輯軟體需要使用者手動操作各種複雜工具,而Kiwi-Edit只需要使用者提供文字描述和參考圖片,就能自動完成專業級的影片編輯大學。就像從手工製作到智慧製造的升級,大大降低了影片編輯的技術門檻。

Q3:普通人如何使用Kiwi-Edit技術大學

A:目前研究團隊已經開源了所有程式碼和模型,開發者可以基於這些資源開發使用者友好的應用程式大學。未來可能會有基於Kiwi-Edit技術的線上工具或移動應用,讓普通使用者也能輕鬆體驗參考引導的影片編輯功能。

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://haizhilanhn.com/post/18683.html

🌐 /