媲美Sora的視頻大模型,“95後”清華博士研發!
2024-07-17 09:12:50

不需要複雜的指令

僅僅輸入一段文字描述

嚴絲合縫的代碼便會為你構建起

一幀幀栩栩如生的影像

2024年4月

媲美Sora的首個國產自研

視頻生成大模型Vidu

出現在大眾視野

支持一鍵生成

16秒、1080P的視頻

帶領團隊完成這項工作的

是清華大學計算機係博士生鮑凡

畢業後他即將擔任

AI創業公司的首席技術官

在追求極致的過程中

持續探尋技術最本質的樂趣

零基礎跨專業

結緣人工智能

2014年

鮑凡被清華大學

生命科學學院錄取

在開展諸多生物實驗的同時

他也開始自學計算機編程

鮑凡(左一)和同學討論問題

學習的過程中

鮑凡逐漸發現

偏理論的計算機學習

對自己有著更大的吸引力

“可能這是一個很複雜的係統

但是一旦深入其中,你會發現

這裏麵本質的東西非常簡潔優雅”

無論是數學公式推導

把公式變成可執行的代碼

還是收集、訓練數據

在鮑凡看來

每一個環節都充滿著魅力

如何通過自學掌握跨學科知識?

鮑凡有著自己的一套方法

“將不同的知識整理到

我自己定義的語言體係中

沒有直接複製粘貼

所有的定理

都被我一個個證明過”

鮑凡記錄的部分筆記

數百頁的筆記

見證著少年的勤奮與努力

靠著這種學習方式

鮑凡在大一到大二期間

掌握了豐富的計算機知識

順利通過轉專業的考核

進入計算機係

清華十年

開展純粹的科研

“我覺得清華實驗室的

學術科研氛圍很濃厚

所以決定繼續留在學校

純粹地去做科研”

本科畢業時

鮑凡憑借出色的成績獲得了

免試攻讀博士學位研究生的機會

鮑凡(中)與導師張鈸院士(右)、朱軍教授

讀博期間

他師從張鈸院士、朱軍教授

先後在ICML、NeurIPS、ICLR、CVPR等

計算機領域頂級會議

以第一作者的身份

發表8篇高水平論文

其中有關擴散概率模型的論文

獲得機器學習領域頂級會議

ICLR 2022傑出論文獎

成為該會議首篇

由中國大陸單位獨立完成的獲獎論文

鮑凡獲得ICLR2022傑出論文獎

該成果被人工智能公司OpenAI

作為核心技術應用於

超大規模跨模態生成模型DALL·E 2

產生了廣泛的影響力

回憶起十年求學生涯

鮑凡感慨

“清華園的每個人

都全力以赴地投身於工作

我也逐漸融入到了

這個務實進取的群體中

變得更加穩重和踏實”

從論文到產品

首個國產視頻大模型誕生

“很多時候人跨境界的提升

都需要有一次把自己逼到極限的過程”

導師朱軍教授的這句話

給鮑凡留下了深刻的印象

在科研攻關的過程中

他也曾“無數次被逼到極限”

Vidu是鮑凡和團隊成員采用

原創架構U-ViT研發出的

中國首個長時長、高一致性、高動態性

視頻生成大模型

與OpenAI發布的

以DiT為底層架構的大模型Sora

有著一致的架構路線

與網絡上將Vidu視為

國外視頻大模型Sora的追趕者不同

有業內人士認為

“Vidu並不屬於追逐 Sora 的一員

而是一早就踏在了同一起跑線

甚至是更早”

事實上,2022年9月

鮑凡就率先提出了全球首個

擴散模型與Transformer模型的融合架構U-ViT

成果發表在了計算機視覺頂級會議上

早於Sora采用的DiT架構的提出時間

——2022年12月

然而在產品上

OpenAI卻領先一步

2024年2月Sora問世

鮑凡意識到

U-ViT也有著廣闊的應用前景

他非常果斷地做出決策

“要做中國自己的視頻大模型!”

製定整體的計劃與分工

設計出算法和模型的框架

在攻關期間深入到每一個細節裏

不分晝夜抓進度,加班加點趕工程

兩個月後

鮑凡帶領團隊完成的

文本生成視頻大模型Vidu

出現在大眾視野

由Vidu生成的畫麵

yabo80 穿過林間小路

玩具船在起伏的地毯上航行

湖邊,熊貓正彈奏吉他

帶著珍珠項鏈的橘貓回眸

……

支持一鍵生成

16秒、1080P視頻的Vidu

性能全麵對標國際頂尖水平

不僅可以複刻現實世界

還能生成想象中的虛構畫麵

《新聞聯播》報道Vidu

發布後獲得央視《新聞聯播》

《東方時空》《新聞30分》

等多個欄目的報道

在海外社交平台也擁有百萬討論量

包括TechTimes(《科技時報》)在內的

多家媒體都對其進行了介紹

如今的Vidu

還未停止迭代升級的腳步

理解用戶更為複雜的需求

生成更加令人滿意的視頻

鮑凡將和團隊成員一起

探尋視頻大模型的更多可能

邊學術邊創業

畢業後成為首席技術官

在清華大學

濃厚的創新創業氛圍影響下

讀博期間

鮑凡踏上了創業之路

他的創業契機很純粹

“就是希望能夠做出偉大的模型”

“開始我也有考慮過走學術路線

但是回歸到自己的目標

我希望掌握透大模型裏麵的每一個細節

以這個目標來看的話

確實隻有創業才有這種機會”

鮑凡(右一)與朱軍教授討論問題

畢業之後

鮑凡將在生數科技擔任首席技術官

帶領著團隊繼續開展

視頻生成模型的研發工作

希望能在現有基礎上

讓大模型變得更加通用可控

關於未來

鮑凡認為Vidu能做的

不僅僅是生成視頻

在虛擬世界複刻物理規律

應用於各種各樣的學科中

“為世界建模”

是團隊的終極目標

鮑凡在大禮堂前

從羅姆樓、大禮堂

到二校門、東升大廈

采訪結束已經到了晚上九點

鮑凡又回到了他的工作崗位

還有一些緊迫的任務

在等待著他去完成

代碼交織,光影變幻

鮑凡的身影消融在夜色裏

從清華起步

助力中國大模型邁向世界舞台

一段嶄新的旅程

已經開啟

| 微矩陣

 報紙廣告服務 新媒體廣告刊例價 技術服務

地址:南京市建鄴區江東中路369號新華報業傳媒廣場 郵編:210092 聯係我們:025-96096(24小時)

互聯網新聞信息服務許可證32120170004 視聽節目許可證1008318號 廣播電視節目製作經營許可證蘇字第394號

版權所有 yabo2018

 蘇ICP備13020714號 | 電信增值業務經營許可證 蘇B2-20140001