一次三篇!李飛飛的空間智慧公司,發論文了

一次三篇!李飛飛的空間智慧公司,發論文了

編輯|Panda

今天論文,由李飛飛聯合創立的空間智慧公司 World Labs 在同一天釋出了三篇技術論文!

一次三篇!李飛飛的空間智慧公司,發論文了

三篇論文分別由公司內部實習生主導完成,研究方向各異,但共享同一個核心命題:藉助已在海量圖片資料上訓練成熟的 2D 生成模型,降低 3D 內容生成的難度門檻論文

一次三篇!李飛飛的空間智慧公司,發論文了

展開全文

值得注意的是,正如 World Labs 聯合創始人 Justin Johnson 所言,儘管該公司此前已有成果展示,但這三篇論文確是該公司的首批論文(first-ever papers)論文

一次三篇!李飛飛的空間智慧公司,發論文了

回到這三篇論文的主題:3D 內容生成論文。這是一個長期以來「說起來簡單、做起來極難」的領域。

現實世界是三維的,但訓練資料絕大多數是二維的(包括照片、影片、影像),而不是帶有體積、深度和遮擋關係的完整空間結構論文。一旦轉入三維,訓練資料驟減,幾何一致性的維護變得指數級複雜。

過去數年,研究者們已經找到了一條可行路徑:不從頭訓練 3D 生成模型,而是將 2D 擴散模型的強大先驗能力遷移到 3D 生成任務中論文

World Labs 這次釋出的三篇論文,分別從不同角度延伸了這條思路論文

三項研究的具體切入點各有側重論文

World Tracing 解決的是「從單張影像恢復可見表面之外的完整三維幾何」問題論文

Modality Forcing 探索的是「如何讓一個文生圖模型同時具備深度感知和 3D 推理能力」論文

Flex4DHuman 則將問題延伸到時間維度,嘗試從普通單目影片中提升出可合成的動態 4D 人體論文

值得注意的是,就在論文釋出的同一天,World Labs 聯合創始人 Christoph Lassner 在社交媒體上宣佈因病將離開公司,為這場學術亮相增添了一絲人事變局的註腳論文

一次三篇!李飛飛的空間智慧公司,發論文了

下面我就來具體看看 World Labs 的首批論文論文

World Tracing

讓每一個畫素論文,都指向一個完整的 3D 世界

如果你手中只有一張照片論文,你能從中恢復多少三維資訊?

常識告訴我們:很有限論文。照片只是現實世界在某一時刻、某一視角下的投影,深度資訊丟失,遮擋面後方的空間完全缺席。當前主流的單圖轉 3D 方法,通常面臨一個兩難困境:要麼做深度估計(精確但只能恢復可見表面);要麼做生成補全(想象力豐富但結果往往偏離原始影像的視覺細節)。

World Tracing 方案試圖同時消解這兩種缺陷論文

一次三篇!李飛飛的空間智慧公司,發論文了

論文標題:World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible

論文地址論文

專案地址論文

論文由 Hao Zhang 主導,團隊成員包括 World Labs 聯合創始人 Ben Mildenhall、Christoph Lassner、Gengshan Yang 等人論文

核心思路是:將每一個輸入畫素視為一條射線,沿著這條射線預測一組有序的三維座標點——第 0 層是可見表面,之後各層依次是沿該射線方向的被遮擋幾何體論文。論文將這種表示稱為「pixel-aligned multilayer geometry representation」(畫素對齊的多層幾何表示),具體實現為一個多層 XYZ 座標張量(multilayer XYZ stack)。

一次三篇!李飛飛的空間智慧公司,發論文了

換句話說,World Tracing 給每個畫素對應的不只是一個三維點,而是一疊有序的三維點,記錄了這條視線穿越場景所經過的所有幾何層:第 0 層是直接可見的表面,更深的層則逐步揭示被前景物體遮擋的隱藏幾何體論文

這就像是把相機比作一支鉛筆:普通深度估計只能畫出物體的輪廓線,而 World Tracing 試圖畫出這支鉛筆穿透紙張時,另一面的樣子論文

預測這種「深度堆疊」本身是極高難度的任務,因為遮擋面的幾何資訊根本沒有出現在影像中,模型必須依賴對現實世界空間結構的「常識」來進行推斷論文

為此,研究團隊採用了擴散模型來對這組有序深度值建模論文。擴散模型天然適合處理帶有不確定性的分散式預測,而非給出單一確定答案。

更關鍵的是,整個預測過程始終對齊於原始輸入影像的畫素座標論文。可見表面的深度被精確地「錨定」在影像資訊中,而不可見部分的補全則在這個約束框架下進行生成。這使得最終的三維重建既忠實於輸入影像,又具備完整的空間結構。

論文中展示的案例覆蓋了靜態物體、室內外場景,乃至動態世界建模論文。團隊還發布了論文程式碼、專案主頁和 Hugging Face 線上演示,讓外界能夠直接測試這套方法對任意影像的處理效果。

一次三篇!李飛飛的空間智慧公司,發論文了

對於 World Labs 這樣以「空間智慧」為核心產品方向的公司來說,World Tracing 的意義在於:它提供了一種從單張影像出發、直接恢復豐富三維結構的技術路徑,而不需要多視角輸入或昂貴的三維資料標註論文。這與 Marble 產品「從影像生成可探索三維世界」的核心承諾高度一致。

Modality Forcing

一個模型論文,同時理解顏色、文字和深度

深度估計和影像生成,在傳統上是兩個完全獨立的任務,分別需要專門的資料集和獨立訓練的模型論文。前者需要精確的深度標註(LiDAR 掃描或雙目視覺),後者依賴海量圖文對。兩套任務的資料規模相差懸殊——影像生成模型見過數十億張圖片,而深度模型的訓練資料量通常只是零頭。

這種不對稱論文,催生了一個自然的問題:能否讓已經在海量圖文資料上訓練成熟的文生圖模型,直接學會對深度的感知?

Modality Forcing 給出了一個肯定的回答,並走得更遠論文

一次三篇!李飛飛的空間智慧公司,發論文了

論文標題:Modality Forcing for Scalable Spatial Generation

論文地址論文

專案地址論文

這篇由 Bardienus Duisterhof 主導的 World Labs 實習研究,核心主張是:文生圖是一種可擴充套件的 3D 推理預訓練目標,只要用對訓練策略,同一個模型可以在 RGBD 生成、深度估計和深度條件影像生成三項任務之間自由切換論文

論文提出的方法名為「Modality Forcing」,其核心機制是:給 RGB 和深度兩種模態分別分配獨立的擴散噪聲時間步(per-modality noise levels)論文

一次三篇!李飛飛的空間智慧公司,發論文了

訓練時,RGB 和深度各自被加入不同程度的噪聲,同時接受各自獨立的損失監督;推理時,只需固定某一模態的噪聲步為 0(即視為已知條件),對另一模態完整去噪,便可實現影像→深度(I2D)或深度→影像(D2I)的條件生成;兩者均加噪則為聯合生成論文

由於深度在畫素空間(而非 VAE 隱空間)中直接擴散,模型可以從僅含稀疏深度標註的真實世界資料中學習,不再侷限於依賴密集標註的合成資料集論文

這種思路的優勢在於:不需要額外引入獨立的深度網路,也不需要為每個任務單獨設計架構分支論文。一個預訓練的文生圖模型,透過 Modality Forcing 微調之後,就具備了對場景幾何的直接感知能力。

從技術路徑來看,Modality Forcing 與近年來流行的多工擴散模型研究(如 Marigold、Depth Pro、Lotus 等)方向一致,但其獨特之處在於對「生成」與「感知」兩類任務的統一處理論文。深度估計通常被視為一個判別任務(給定影像,輸出深度值),而文生圖是一個生成任務。

Modality Forcing 的貢獻在於證明:這兩種任務之間的邊界比想象中模糊得多;生成能力的積累,可以直接轉化為感知能力的提升,反之亦然論文

對 World Labs 來說,這項研究的意義延伸到產品層面:Marble 的 3D 世界生成需要對場景深度的精確理解論文。一個同時具備生成和感知能力的統一模型,將使 3D 世界的構建更加自洽,避免深度估計模組和生成模組之間的累積誤差。

Flex4DHuman

從一段手機影片論文,「升維」出可合成的動態人體

如果說前兩篇論文處理的是靜態或通用場景,Flex4DHuman 則將挑戰聚焦於一個更具體但同樣重要的子問題:如何從一段普通的單目影片(比如手機拍攝的日常影片),重建出動態人體的完整四維結構,即三維空間+時間維度論文

這個問題的難點在於「單目」兩個字論文。多目攝像系統可以透過視差直接測量三維座標,但單目影片丟失了這種幾何約束。從單目影片重建運動中的三維人體,本質上是一個欠約束問題:同一段影片序列,理論上對應無數種可能的三維運動軌跡。此前的方法大多依賴最佳化過程,計算耗時,且難以泛化到訓練集以外的姿態和外觀。

Flex4DHuman 由 Yipeng Wang 擔任專案負責人,第一作者為 Jen-Hao Cheng,工作在 World Labs 實習期間完成論文

一次三篇!李飛飛的空間智慧公司,發論文了

論文標題:Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction

論文地址論文

專案地址論文

方法以阿里巴巴的 Wan 2.1(一個 1.3B 引數的文字生成影片 DiT)為基礎進行微調,核心改動只有一處:將原有的時空位置編碼替換為一套五軸位置編碼(five-axis positional encoding),在原有的空間座標和幀序索引之外,額外引入視角槽索引和連續 SE(3) 相對相機幾何,使模型在注意力機制內部直接感知相機之間的相對位姿關係論文

一次三篇!李飛飛的空間智慧公司,發論文了

這個設計帶來了一個關鍵優勢:不需要骨架估計(skeleton)、深度圖或法線圖等顯式幾何先驗,僅憑相對相機姿態就能驅動多視角影片的同步生成論文。這與此前主流方法(如 Diffuman4D 依賴 SMPL 骨架、MV-Performer 依賴深度和法線渲染)形成鮮明對比。

給定一段單目參考影片和目標相機姿態,模型直接輸出在時間上同步、視角上一致的多視角影片序列;再將這些多視角影片送入 FreeTimeGS 重建管線,即可得到動態 4D 高斯表示(4D Gaussian Splats)論文

這套流程將影片擴散模型的強大外觀先驗與 4D 高斯的高效渲染能力結合起來,使得從一段跳舞影片或行走影片出發,可以將其中的人物「升維」為完整的動態 4D 資產,再合成進任意 3D 場景論文。這對於數字內容創作、虛擬製片和 AR/VR 應用具有直接價值。

一次三篇!李飛飛的空間智慧公司,發論文了

論文還驗證了方法超出人體的泛化性:同一個模型經過少量微調後,可以推廣到多物種動物的多視角生成,在跨物種零樣本測試中仍保持較強效能,表明方法的核心設計不依賴人體特有的幾何假設論文

論文在 DNA-Rendering 和 ActorsHQ 兩個基準上進行了評測論文。與同樣基於單目參考影片的 Diffuman4D-mono-skeleton 相比,Flex4DHuman 在 DNA-Rendering 上 PSNR 提升約 9.3 dB;在零樣本的 ActorsHQ 測試集上,PSNR 也高出對手約 3.4 dB。

從更宏觀的視角來看,Flex4DHuman 代表了「2D 影片資料賦能 3D 世界建模」這一技術路線的一個典型樣本論文。手機影片是人類日常生產最多的資料形式,如果能夠高效地從中提取四維資訊,將極大擴充套件 3D 世界模型的訓練資料來源。

聯創 Christoph Lassner 宣佈離職

就在三篇論文釋出的同一天,World Labs 聯合創始人 Christoph Lassner 在 X 平臺發帖,宣佈自己將離開公司,開啟下一段旅程論文

一次三篇!李飛飛的空間智慧公司,發論文了

Lassner 是 World Labs 四位聯合創始人之一,另外三位分別是李飛飛、Justin Johnson 和 Ben Mildenhall論文。他長期從事計算機視覺與計算機圖形學交叉領域的研究,專注於從 2D 影像和影片中恢復可用的三維內容。

在加入 World Labs 之前,Lassner 的職業軌跡覆蓋了多個行業前沿論文。他曾在初創公司 Bodylabs 工作,該公司後被亞馬遜收購,專注於基於影像的三維人體建模;在亞馬遜期間,他主導開發了 Amazon Halo 智慧手環的三維體型估算系統,使用者僅需手機自拍,即可獲得精確的三維身材模型。此後,他先後在 Meta Reality Labs Research 和 Epic Games 主持研究團隊,深耕神經渲染和 NeRF(神經輻射場)相關技術,2022 年 Meta Connect 大會上展示的即時輻射場渲染演示,正是他所在團隊的成果之一。他還開發了 Pulsar 渲染器,一種基於球體基元的可微分渲染器,後來成為 PyTorch3D 的後端元件之一,在學術界得到廣泛應用。

一次三篇!李飛飛的空間智慧公司,發論文了

Lassner 於 2024 年初與李飛飛等人共同創立 World Labs論文。公司於同年 9 月從隱身狀態中走出,以約 10 億美元估值完成 2.3 億美元融資,投資方包括 NVIDIA、AMD、Adobe 和 Databricks 旗下風險投資機構。2026 年 2 月,World Labs 完成了由 Autodesk 領投的 10 億美元新一輪融資,估值躍升至約 50 億美元。

三篇論文的致謝列表中均出現了 Lassner 的名字,這意味著他在職期間積極參與了這些實習研究專案論文

對於離職的原因,Lassner 在公開宣告中做了坦誠的說明:過去幾個月裡,他經歷了數起個人事故,其中包括一次造成多處骨折和腦震盪的意外,目前仍在恢復中論文。這段強制休息的時間讓他有機會重新審視自己的處境,並做出了退出日常運營職務的決定。他同時表示,將繼續以顧問身份支援公司,並對李飛飛、Justin Johnson 和 Ben Mildenhall 在這一決定過程中給予的理解和支援表達了感謝。

在向公司內部團隊傳送的信件中,Lassner 寫道,他「深信 World Labs 以及我們正在構建的事業的重要性」,公司目前所處的強勁位置讓他確信此刻是交棒的合適時機論文。他表示,自己下一步的計劃尚不明確,但「對即將到來的事感到興奮」。

結語

三篇論文同日亮相,對 World Labs 而言是一個值得記錄的時間節點論文。這家公司自 2024 年創立以來,主要以技術部落格和產品的形式與公眾見面:Marble 世界模型的內測與公測、World API 的開放、Spark 2.0……而這次是公司首次以 arXiv 預印本形式正式發表學術論文。

這次的集體亮相,聯合創始人 Justin Johnson 在 X 上的評論或許最能說明其背景意涵:「3D 是一個令人興奮的領域,我們仍在摸索正確的任務定義、問題形式、模型架構,以及最佳的擴充套件方式論文。我們在這裡分享一些想法,由一批出色的實習生主導完成。」

語氣謙遜,但方向很清晰:World Labs 正在將「空間智慧」的研究路線推向更深處,並願意在這一過程中與學術社羣分享自己的思考論文

文中影片連結論文

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:835971066@qq.com

本文連結://haizhilanhn.com/post/47411.html

🌐 /