編輯|Panda
今天論文,由李飛飛聯合創立的空間智慧公司 World Labs 在同一天釋出了三篇技術論文!
三篇論文分別由公司內部實習生主導完成,研究方向各異,但共享同一個核心命題:藉助已在海量圖片資料上訓練成熟的 2D 生成模型,降低 3D 內容生成的難度門檻論文。
展開全文
值得注意的是,正如 World Labs 聯合創始人 Justin Johnson 所言,儘管該公司此前已有成果展示,但這三篇論文確是該公司的首批論文(first-ever papers)論文。
回到這三篇論文的主題:3D 內容生成論文。這是一個長期以來「說起來簡單、做起來極難」的領域。
現實世界是三維的,但訓練資料絕大多數是二維的(包括照片、影片、影像),而不是帶有體積、深度和遮擋關係的完整空間結構論文。一旦轉入三維,訓練資料驟減,幾何一致性的維護變得指數級複雜。
過去數年,研究者們已經找到了一條可行路徑:不從頭訓練 3D 生成模型,而是將 2D 擴散模型的強大先驗能力遷移到 3D 生成任務中論文。
World Labs 這次釋出的三篇論文,分別從不同角度延伸了這條思路論文。
三項研究的具體切入點各有側重論文:
World Tracing 解決的是「從單張影像恢復可見表面之外的完整三維幾何」問題論文;
Modality Forcing 探索的是「如何讓一個文生圖模型同時具備深度感知和 3D 推理能力」論文;
Flex4DHuman 則將問題延伸到時間維度,嘗試從普通單目影片中提升出可合成的動態 4D 人體論文。
值得注意的是,就在論文釋出的同一天,World Labs 聯合創始人 Christoph Lassner 在社交媒體上宣佈因病將離開公司,為這場學術亮相增添了一絲人事變局的註腳論文。
下面我就來具體看看 World Labs 的首批論文論文。
World Tracing
讓每一個畫素論文,都指向一個完整的 3D 世界
如果你手中只有一張照片論文,你能從中恢復多少三維資訊?
常識告訴我們:很有限論文。照片只是現實世界在某一時刻、某一視角下的投影,深度資訊丟失,遮擋面後方的空間完全缺席。當前主流的單圖轉 3D 方法,通常面臨一個兩難困境:要麼做深度估計(精確但只能恢復可見表面);要麼做生成補全(想象力豐富但結果往往偏離原始影像的視覺細節)。
World Tracing 方案試圖同時消解這兩種缺陷論文。
論文標題:World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible
論文地址論文:
專案地址論文:
論文由 Hao Zhang 主導,團隊成員包括 World Labs 聯合創始人 Ben Mildenhall、Christoph Lassner、Gengshan Yang 等人論文。
核心思路是:將每一個輸入畫素視為一條射線,沿著這條射線預測一組有序的三維座標點——第 0 層是可見表面,之後各層依次是沿該射線方向的被遮擋幾何體論文。論文將這種表示稱為「pixel-aligned multilayer geometry representation」(畫素對齊的多層幾何表示),具體實現為一個多層 XYZ 座標張量(multilayer XYZ stack)。
換句話說,World Tracing 給每個畫素對應的不只是一個三維點,而是一疊有序的三維點,記錄了這條視線穿越場景所經過的所有幾何層:第 0 層是直接可見的表面,更深的層則逐步揭示被前景物體遮擋的隱藏幾何體論文。
這就像是把相機比作一支鉛筆:普通深度估計只能畫出物體的輪廓線,而 World Tracing 試圖畫出這支鉛筆穿透紙張時,另一面的樣子論文。
預測這種「深度堆疊」本身是極高難度的任務,因為遮擋面的幾何資訊根本沒有出現在影像中,模型必須依賴對現實世界空間結構的「常識」來進行推斷論文。
為此,研究團隊採用了擴散模型來對這組有序深度值建模論文。擴散模型天然適合處理帶有不確定性的分散式預測,而非給出單一確定答案。
更關鍵的是,整個預測過程始終對齊於原始輸入影像的畫素座標論文。可見表面的深度被精確地「錨定」在影像資訊中,而不可見部分的補全則在這個約束框架下進行生成。這使得最終的三維重建既忠實於輸入影像,又具備完整的空間結構。
論文中展示的案例覆蓋了靜態物體、室內外場景,乃至動態世界建模論文。團隊還發布了論文程式碼、專案主頁和 Hugging Face 線上演示,讓外界能夠直接測試這套方法對任意影像的處理效果。
對於 World Labs 這樣以「空間智慧」為核心產品方向的公司來說,World Tracing 的意義在於:它提供了一種從單張影像出發、直接恢復豐富三維結構的技術路徑,而不需要多視角輸入或昂貴的三維資料標註論文。這與 Marble 產品「從影像生成可探索三維世界」的核心承諾高度一致。
Modality Forcing
一個模型論文,同時理解顏色、文字和深度
深度估計和影像生成,在傳統上是兩個完全獨立的任務,分別需要專門的資料集和獨立訓練的模型論文。前者需要精確的深度標註(LiDAR 掃描或雙目視覺),後者依賴海量圖文對。兩套任務的資料規模相差懸殊——影像生成模型見過數十億張圖片,而深度模型的訓練資料量通常只是零頭。
這種不對稱論文,催生了一個自然的問題:能否讓已經在海量圖文資料上訓練成熟的文生圖模型,直接學會對深度的感知?
Modality Forcing 給出了一個肯定的回答,並走得更遠論文。
論文標題:Modality Forcing for Scalable Spatial Generation
論文地址論文:
專案地址論文:
這篇由 Bardienus Duisterhof 主導的 World Labs 實習研究,核心主張是:文生圖是一種可擴充套件的 3D 推理預訓練目標,只要用對訓練策略,同一個模型可以在 RGBD 生成、深度估計和深度條件影像生成三項任務之間自由切換論文。
論文提出的方法名為「Modality Forcing」,其核心機制是:給 RGB 和深度兩種模態分別分配獨立的擴散噪聲時間步(per-modality noise levels)論文。
訓練時,RGB 和深度各自被加入不同程度的噪聲,同時接受各自獨立的損失監督;推理時,只需固定某一模態的噪聲步為 0(即視為已知條件),對另一模態完整去噪,便可實現影像→深度(I2D)或深度→影像(D2I)的條件生成;兩者均加噪則為聯合生成論文。
由於深度在畫素空間(而非 VAE 隱空間)中直接擴散,模型可以從僅含稀疏深度標註的真實世界資料中學習,不再侷限於依賴密集標註的合成資料集論文。
這種思路的優勢在於:不需要額外引入獨立的深度網路,也不需要為每個任務單獨設計架構分支論文。一個預訓練的文生圖模型,透過 Modality Forcing 微調之後,就具備了對場景幾何的直接感知能力。
從技術路徑來看,Modality Forcing 與近年來流行的多工擴散模型研究(如 Marigold、Depth Pro、Lotus 等)方向一致,但其獨特之處在於對「生成」與「感知」兩類任務的統一處理論文。深度估計通常被視為一個判別任務(給定影像,輸出深度值),而文生圖是一個生成任務。
Modality Forcing 的貢獻在於證明:這兩種任務之間的邊界比想象中模糊得多;生成能力的積累,可以直接轉化為感知能力的提升,反之亦然論文。
對 World Labs 來說,這項研究的意義延伸到產品層面:Marble 的 3D 世界生成需要對場景深度的精確理解論文。一個同時具備生成和感知能力的統一模型,將使 3D 世界的構建更加自洽,避免深度估計模組和生成模組之間的累積誤差。
Flex4DHuman
從一段手機影片論文,「升維」出可合成的動態人體
如果說前兩篇論文處理的是靜態或通用場景,Flex4DHuman 則將挑戰聚焦於一個更具體但同樣重要的子問題:如何從一段普通的單目影片(比如手機拍攝的日常影片),重建出動態人體的完整四維結構,即三維空間+時間維度論文。
這個問題的難點在於「單目」兩個字論文。多目攝像系統可以透過視差直接測量三維座標,但單目影片丟失了這種幾何約束。從單目影片重建運動中的三維人體,本質上是一個欠約束問題:同一段影片序列,理論上對應無數種可能的三維運動軌跡。此前的方法大多依賴最佳化過程,計算耗時,且難以泛化到訓練集以外的姿態和外觀。
Flex4DHuman 由 Yipeng Wang 擔任專案負責人,第一作者為 Jen-Hao Cheng,工作在 World Labs 實習期間完成論文。
論文標題:Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction
論文地址論文:
專案地址論文:
方法以阿里巴巴的 Wan 2.1(一個 1.3B 引數的文字生成影片 DiT)為基礎進行微調,核心改動只有一處:將原有的時空位置編碼替換為一套五軸位置編碼(five-axis positional encoding),在原有的空間座標和幀序索引之外,額外引入視角槽索引和連續 SE(3) 相對相機幾何,使模型在注意力機制內部直接感知相機之間的相對位姿關係論文。
這個設計帶來了一個關鍵優勢:不需要骨架估計(skeleton)、深度圖或法線圖等顯式幾何先驗,僅憑相對相機姿態就能驅動多視角影片的同步生成論文。這與此前主流方法(如 Diffuman4D 依賴 SMPL 骨架、MV-Performer 依賴深度和法線渲染)形成鮮明對比。
給定一段單目參考影片和目標相機姿態,模型直接輸出在時間上同步、視角上一致的多視角影片序列;再將這些多視角影片送入 FreeTimeGS 重建管線,即可得到動態 4D 高斯表示(4D Gaussian Splats)論文。
這套流程將影片擴散模型的強大外觀先驗與 4D 高斯的高效渲染能力結合起來,使得從一段跳舞影片或行走影片出發,可以將其中的人物「升維」為完整的動態 4D 資產,再合成進任意 3D 場景論文。這對於數字內容創作、虛擬製片和 AR/VR 應用具有直接價值。
論文還驗證了方法超出人體的泛化性:同一個模型經過少量微調後,可以推廣到多物種動物的多視角生成,在跨物種零樣本測試中仍保持較強效能,表明方法的核心設計不依賴人體特有的幾何假設論文。
論文在 DNA-Rendering 和 ActorsHQ 兩個基準上進行了評測論文。與同樣基於單目參考影片的 Diffuman4D-mono-skeleton 相比,Flex4DHuman 在 DNA-Rendering 上 PSNR 提升約 9.3 dB;在零樣本的 ActorsHQ 測試集上,PSNR 也高出對手約 3.4 dB。
從更宏觀的視角來看,Flex4DHuman 代表了「2D 影片資料賦能 3D 世界建模」這一技術路線的一個典型樣本論文。手機影片是人類日常生產最多的資料形式,如果能夠高效地從中提取四維資訊,將極大擴充套件 3D 世界模型的訓練資料來源。
聯創 Christoph Lassner 宣佈離職
就在三篇論文釋出的同一天,World Labs 聯合創始人 Christoph Lassner 在 X 平臺發帖,宣佈自己將離開公司,開啟下一段旅程論文。
Lassner 是 World Labs 四位聯合創始人之一,另外三位分別是李飛飛、Justin Johnson 和 Ben Mildenhall論文。他長期從事計算機視覺與計算機圖形學交叉領域的研究,專注於從 2D 影像和影片中恢復可用的三維內容。
在加入 World Labs 之前,Lassner 的職業軌跡覆蓋了多個行業前沿論文。他曾在初創公司 Bodylabs 工作,該公司後被亞馬遜收購,專注於基於影像的三維人體建模;在亞馬遜期間,他主導開發了 Amazon Halo 智慧手環的三維體型估算系統,使用者僅需手機自拍,即可獲得精確的三維身材模型。此後,他先後在 Meta Reality Labs Research 和 Epic Games 主持研究團隊,深耕神經渲染和 NeRF(神經輻射場)相關技術,2022 年 Meta Connect 大會上展示的即時輻射場渲染演示,正是他所在團隊的成果之一。他還開發了 Pulsar 渲染器,一種基於球體基元的可微分渲染器,後來成為 PyTorch3D 的後端元件之一,在學術界得到廣泛應用。
Lassner 於 2024 年初與李飛飛等人共同創立 World Labs論文。公司於同年 9 月從隱身狀態中走出,以約 10 億美元估值完成 2.3 億美元融資,投資方包括 NVIDIA、AMD、Adobe 和 Databricks 旗下風險投資機構。2026 年 2 月,World Labs 完成了由 Autodesk 領投的 10 億美元新一輪融資,估值躍升至約 50 億美元。
三篇論文的致謝列表中均出現了 Lassner 的名字,這意味著他在職期間積極參與了這些實習研究專案論文。
對於離職的原因,Lassner 在公開宣告中做了坦誠的說明:過去幾個月裡,他經歷了數起個人事故,其中包括一次造成多處骨折和腦震盪的意外,目前仍在恢復中論文。這段強制休息的時間讓他有機會重新審視自己的處境,並做出了退出日常運營職務的決定。他同時表示,將繼續以顧問身份支援公司,並對李飛飛、Justin Johnson 和 Ben Mildenhall 在這一決定過程中給予的理解和支援表達了感謝。
在向公司內部團隊傳送的信件中,Lassner 寫道,他「深信 World Labs 以及我們正在構建的事業的重要性」,公司目前所處的強勁位置讓他確信此刻是交棒的合適時機論文。他表示,自己下一步的計劃尚不明確,但「對即將到來的事感到興奮」。
結語
三篇論文同日亮相,對 World Labs 而言是一個值得記錄的時間節點論文。這家公司自 2024 年創立以來,主要以技術部落格和產品的形式與公眾見面:Marble 世界模型的內測與公測、World API 的開放、Spark 2.0……而這次是公司首次以 arXiv 預印本形式正式發表學術論文。
這次的集體亮相,聯合創始人 Justin Johnson 在 X 上的評論或許最能說明其背景意涵:「3D 是一個令人興奮的領域,我們仍在摸索正確的任務定義、問題形式、模型架構,以及最佳的擴充套件方式論文。我們在這裡分享一些想法,由一批出色的實習生主導完成。」
語氣謙遜,但方向很清晰:World Labs 正在將「空間智慧」的研究路線推向更深處,並願意在這一過程中與學術社羣分享自己的思考論文。
文中影片連結論文: