谷歌北大聯手學術版Banana爆火,論文圖表100%精確生成

一水 發自 凹非寺

量子位 | 公眾號 QbitAI

效果好到刷屏的Nano Banana論文,學術特供版熱乎出爐!

名字就是如此直觀——PaperBanana,給你每天都在頭痛的Paper用上Banana論文。(試圖押韻skr)

而且這一次是由谷歌北大強強聯手打造論文

谷歌北大聯手學術版Banana爆火,論文圖表100%精確生成

知道你想馬上看效果,別急,三個官方案例這就給大家搬上桌論文

在相同輸入下論文,人類繪製、原版Nano Banana與PaperBanana生成的論文插圖對比如下:

綜合評估顯示,PaperBanana在美觀性、簡潔性與邏輯清晰度上均全面優於原版論文

谷歌北大聯手學術版Banana爆火,論文圖表100%精確生成

展開全文

而且它還能直接最佳化人工繪製的插圖,瞅瞅右邊,是不是高階感一下就上去了論文

此外,由於PaperBanana還提供程式碼出圖功能 (即利用Gemini-3-Pro自動生成並執行Python視覺化程式碼出圖),所以它還能用來生成需要數值100%精準的各種圖表論文

谷歌北大聯手學術版Banana爆火,論文圖表100%精確生成

好好好,既能拿捏高階感,又不忘精準度,應該沒有學術人不愛吧~

谷歌北大聯手學術版Banana爆火,論文圖表100%精確生成

論文作者表示,PaperBanana為全自動生成可用於出版的插圖鋪平了道路論文

我們希望這個框架能成為連線複雜科學概念與高效視覺敘事的橋樑,賦能每一位研究者,用專業級的視覺語言清晰呈現其發現論文

我們希望這個框架能成為連線複雜科學概念與高效視覺敘事的橋樑,賦能每一位研究者,用專業級的視覺語言清晰呈現其發現論文

而在看到其效果之後,一眾網友也紛紛感嘆“學術插圖”這個老大難總算是要被攻克了論文

想想以前的日子論文,真真是要落淚了~

研究人員花費4個小時在Figma中繪製一張圖,簡直令人難以置信論文

研究人員花費4個小時在Figma中繪製一張圖,簡直令人難以置信論文

那麼論文,學術版PaperBanana是如何煉造的呢?

一個不夠論文,那就5個!

用一個模型生圖怎麼夠,現在都是多智慧體齊上陣了論文

沒錯,PaperBanana背後就是5個分工明確的智慧體在起作用論文

Retriever Agent(檢索智慧體):從頂會論文庫中,找到與你要畫的圖領域、結構最相似的參考案例論文

Planner Agent(規劃智慧體):把論文文字描述,轉化為包含所有模組、邏輯的詳細繪圖說明書論文

Stylist Agent(風格智慧體):總結學術審美規範,給說明書加上配色、排版等“美顏”標準論文

Visualizer Agent(視覺化智慧體):根據說明書,直接畫圖或寫程式碼出圖,產出初稿論文

Critic Agent(批判智慧體):檢查圖的對錯與美觀度,提出修改意見,迴圈迭代3輪最佳化論文

Retriever Agent(檢索智慧體):從頂會論文庫中,找到與你要畫的圖領域、結構最相似的參考案例論文

Planner Agent(規劃智慧體):把論文文字描述,轉化為包含所有模組、邏輯的詳細繪圖說明書論文

Stylist Agent(風格智慧體):總結學術審美規範,給說明書加上配色、排版等“美顏”標準論文

Visualizer Agent(視覺化智慧體):根據說明書,直接畫圖或寫程式碼出圖,產出初稿論文

Critic Agent(批判智慧體):檢查圖的對錯與美觀度,提出修改意見,迴圈迭代3輪最佳化論文

下面這張圖清晰展示了它們的工作流程論文

劃重點,連這張圖也是PaperBanana自己生成的論文

谷歌北大聯手學術版Banana爆火,論文圖表100%精確生成

論文作者表示,這一過程參考了人類製作論文插圖的流程論文

以製作一個模型架構圖為例,通常研究人員會先去看看頂會里類似工作的圖是怎麼畫的,找找靈感和規範論文

這一步就對應了檢索智慧體的工作論文

然後就需要根據參考來規劃自己的圖該怎麼畫,“我的方法有幾個關鍵模組?”、“資料流和邏輯順序是怎樣的?”,在想清所有關鍵問題後,腦子裡大概就有一幅架構藍圖了論文

而到這一步還不是真正動筆的時候,因為還需要結合自己的圖以及之前看過的“頂會審美”標準,來給藍圖加點設計感論文

有了這兩樣東西(藍圖+審美),現在就可以真正出圖了論文

並且出完之後,研究人員往往還需要檢查一番,以確保出圖正確無誤論文

谷歌北大聯手學術版Banana爆火,論文圖表100%精確生成

怎麼樣?是不是一環扣一環、且全都一一對應上了論文

而在瞭解完PaperBanana的工作方式後論文,接下來的問題在於:

怎麼評估PaperBanana的生圖效果論文

實驗方法及結果

對此,團隊還專門構建了一個PaperBananaBench論文。該基準內容源自NeurIPS 2025——

他們從5275篇論文中隨機取樣2000篇,經過濾、人工校驗後,得到584個有效樣本,然後將其均分為292個測試樣本和292個參考樣本論文

這292個參考樣本論文,每一個都提取了完整的(S, C, I)三元組:

S(源上下文):描述方法的文字論文,如論文方法論章節;

C(傳達意圖):圖的標題/說明論文,如“我們的框架概述”;

I(參考影像):論文中實際使用的、高質量的對應圖表論文

S(源上下文):描述方法的文字論文,如論文方法論章節;

C(傳達意圖):圖的標題/說明論文,如“我們的框架概述”;

I(參考影像):論文中實際使用的、高質量的對應圖表論文

參考樣本集構成了一個高質量的“學術插圖資料庫”,主要供檢索智慧體進行查詢和匹配論文

而與之對應的292個測試樣本,在評估時則僅提供S、C作為輸入論文。其對應的I作為隱藏的標準答案,不參與生成過程,僅用於最終的質量比對與評分。

準備到這裡,接下來就是具體生成和評估了論文

裁判方面論文,他們採用了“VLM-as-a-Judge”(大模型當裁判)的評估正規化——

讓強大的視覺語言模型(如Gemini-3-Pro)作為評委,將PaperBanana生成的圖與測試集中隱藏的標準答案I進行逐項對比論文

對比的維度主要有四個:忠實性、簡潔性、可讀性、美觀性論文

若PaperBanana表現優於標準圖得100分,劣於得0分,持平得50分,最終計算總分論文

而實驗結果表明,PaperBanana在所有維度上全面超越了傳統的單模型直接生成(Vanilla)等基線方法論文

谷歌北大聯手學術版Banana爆火,論文圖表100%精確生成

整體效能碾壓:總分相對基線提升了17.0%論文。其中,簡潔性提升最為顯著,高達37.2%,說明它生成的圖邏輯更乾淨、重點更突出;可讀性(+12.9%)和美觀性(+6.6%)也有大幅領先。

獲得人類盲測認可:在匿名的人類盲測中,研究員有72.7%的情況認為PaperBanana生成的圖比基線模型更好論文

統計圖表表現優異:在需要高精度的統計圖表任務中,PaperBanana的“程式碼生成模式”在數值忠實性上與人類水平相當,而簡潔性和美觀性甚至略勝一籌論文

整體效能碾壓:總分相對基線提升了17.0%論文。其中,簡潔性提升最為顯著,高達37.2%,說明它生成的圖邏輯更乾淨、重點更突出;可讀性(+12.9%)和美觀性(+6.6%)也有大幅領先。

獲得人類盲測認可:在匿名的人類盲測中,研究員有72.7%的情況認為PaperBanana生成的圖比基線模型更好論文

統計圖表表現優異:在需要高精度的統計圖表任務中,PaperBanana的“程式碼生成模式”在數值忠實性上與人類水平相當,而簡潔性和美觀性甚至略勝一籌論文

這裡需要說明論文,在生成圖表方面,PaperBanana有兩種模式:

一種是程式碼生成模式(預設)論文。讓Gemini-3-Pro這類模型自動寫Python視覺化程式碼 (如Matplotlib),再執行程式碼出圖。優點是可以保證數值絕對準確,適合需要嚴格精度的場景。

另一種是直接生圖模式(可選方式)論文。跳過程式碼,讓影像生成模型直接根據文字描述生成圖表。優點是視覺效果更頂,但數值容易出現幻覺問題。

左圖直接生圖模式下,紅框圈選出來的就是一些錯誤問題,而右側的程式碼生圖模式明顯無誤,但美觀度略遜論文

谷歌北大聯手學術版Banana爆火,論文圖表100%精確生成

最後的消融實驗證明,檢索參考、風格最佳化、批判迭代這三個環節缺一不可,它們共同保證了最終影像的“準確”與“好看”論文

不過也需要提醒,PaperBanana目前仍有一些侷限性,比如它作為生圖還無法編輯,同時在很多細節忠實度方面仍比不上人類手工作業論文

所以,更保險的做法或許是,讓它幫你最佳化以前繪製過的圖論文

在下面這套“手圖蛻變”流程下,很多圖都能變得更美觀、更高階……當然也更容易入頂會的眼(doge)論文

谷歌北大聯手學術版Banana爆火,論文圖表100%精確生成

谷歌x北大聯手打造

最後介紹下PaperBanana背後的團隊論文

一共7人論文,可以清晰分成兩撥——

一撥來自北大,主要提供NLP與多模態理解的學術根基;另一撥來自Google Cloud AI Research,負責多模態系統與工業化視角論文

谷歌北大聯手學術版Banana爆火,論文圖表100%精確生成

署名第一的Dawei Zhu(兼通訊作者),本碩博均就讀於北大,現為北大四年級博士生論文

他重點研究長上下文建模和多模態資料,之前在微軟亞洲研究院實習過,目前是Google Cloud AI Research學生研究員,PaperBanana也是他在谷歌期間參與的專案論文

谷歌北大聯手學術版Banana爆火,論文圖表100%精確生成

藉著北大這條線,另外兩位來自北大的分別是Xiyu Wei和Sujian Li(兼通訊作者)論文

Sujian Li目前是北大計算機學院長聘副教授,也是Dawei Zhu的博導,主要研究自然語言處理、資訊抽取等論文

而Xiyu Wei可能還是學生,目前只能看到TA和Dawei Zhu合作過一篇關於拓展上下文的論文論文

而其他幾位來自Google Cloud AI Research的分別是論文

負責人Tomas Pfister、高階研究科學家Yale Song、研究科學家Rui Meng和Jinsung Yoon(兼通訊作者)論文

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://haizhilanhn.com/tags-%E7%9C%81%E6%94%BF%E5%8D%94.html

🌐 /