OpenAI突然上線的Sora,到底意味着什麼?
12月10日。凌晨2點。有人呼聲正酣,有人還在加班。
此時,一段20分鐘的直播,瞬間讓靜謐的夜晚沸騰了起來。
什麼直播?OpenAI發佈會。
今年2月,Sora首次發佈的時候,我寫了 ,和你做了一點簡單的介紹。
這一次,鴿了快一年的,OpenAI的文生視頻工具Sora,終於開放註冊了。
從測試階段,到使用階段。Sora,不再是少數人的小衆玩具。
你只需要給一段文字,或者給一張圖片,就能直接生成一段20秒的1080p視頻。
而且,它和人工智能對話聊天機器人ChatGPT共用一個會員體系。你可以選擇充積分單獨使用,但如果你開了ChatGPT的會員,也能免費用上Sora。
我給你先看幾個視頻,感受一下。
(Sora官網視頻)
(Sora官網視頻)
(Sora官網視頻)
怎麼樣?
人臉上的褶皺、神態,拍攝的角度,都非常有電影感。小狗跨過窗臺,那種試探路穩不穩的猶豫,都被考慮到了視頻裡。工地上許多人走來走去,好幾個動線,好幾個拍攝角度,也依然絲滑。
但是,不需要攝影師,不需要分鏡師,不需要動畫師,也不需要導演。
這在過去簡直無法想象,但是現在,它逐漸照進了現實。
對生成的視頻不滿意,也沒關係,你可以繼續修改。修改的方式也很細緻。你想從第幾秒開始接着前面重新再生成、你想添加或者刪減什麼細節要素......
只需要你一句話,就能讓它再給你生成好幾個版本,直到你滿意爲止。
所以,昨天發佈會結束沒多久,官網就被涌來的人給弄癱瘓了。奧特曼只好暫停了註冊通道。
是的。相信你的朋友圈,這兩天也被這件事刷屏了。但你可能依然疑惑:
Sora到底厲害在哪兒?爲什麼能讓我們如此激動?對於OpenAI,乃至人工智能的整體發展來說,Sora到底意味着什麼?
有沒有人可以用我能聽明白的方式,跟我講講?
於是,我跑去請教了LangGPT的聯合創始人甲木老師,也閱讀了很多資料。
Sora測試的這10個月,國產文生視頻AI軟件也如雨後春筍一般冒出。先跑出來的可靈,緊跟其後的即夢、海螺、vidu,還有開源的混元和智譜,都在做文生視頻。不斷迭代,不斷升級。
所以這一次,比起2月,我有了更多的體感。
其實,在凌晨的發佈會上,奧特曼就提到過3個要點。我也把它總結成了3個關鍵詞。理解了這3個關鍵詞,你或許就能理解這件事的來龍去脈了。
共同協作。信息載體。世界模型。
我們一個個來說。
先說,共同協作。
大部分傳統視頻製作軟件,主要充當着“素材工具”、“製作工具”。雖然有了工具,但你可能依然需要許多角色的人,大家一起分工協作,一起使用這些工具,才能最終產出視頻。
但如果,這個“許多角色的人”,就是AI呢?
效率,會瘋狂提升。
如果AI能幫你聯網搜索,給你分點羅列,它就能幫你完成“素材蒐集”。如果AI能直接給你成品,你拿着成品,你的工作就從“從零創作”變成了“修改草稿”。
這就是協作。你和它一起,直接對結果負責。
而這回,AI連“修改”都幫你幹了。這下,你可能連視頻製作的技術都不需要一一掌握了。
比如,remix,重新混合。
你輸入一句話,Sora給你生成了一個5秒的視頻。你覺得背景很好,但是想把視頻裡的房子,換成中世紀風格的。你就可以繼續在下面打字:請把圖中的房子換成中世紀風格。然後點擊再次生成,就能局部修改視頻。
(OpenAI Sora Tutorials OpenAI官方示例教程)
比如,re-cut,重新剪輯。
你覺得前2秒很好,但是後3秒很荒唐。你可以從第2秒剪開,讓Sora基於前面的2秒,重新再給你混合生成後面的視頻。一句話的事。
(OpenAI Sora Tutorials OpenAI官方示例教程)
比如,blend,混合。
你生成了兩個視頻,一個蝴蝶振翅,一個花朵盛開。你想讓這兩個視頻絲滑連接起來,就可以用blend功能,一鍵銜接。
(OpenAI Sora Tutorials OpenAI官方示例教程)
比如,loop,無限循環。
一直奔跑的羊羣、不斷翻涌的浪花,就可以用loop來生成。
(OpenAI Sora Tutorials OpenAI官方示例教程)
還有一個特別炫酷的,storyboard,故事板功能。
你在板上輸入描述文字作爲提示詞,就能生成一塊故事板。這一塊故事板,就對應一個生成的視頻。你可以在視頻的時間軸上放置故事板。你放在哪一秒,就從哪一秒開始演繹你編輯的故事視頻。你還可以在故事板上,上傳一張圖。基於你的圖,會生成第二塊故事板。第二塊故事板上,根據你的圖,Sora會根據理解自動寫成一段文字。
接着,你就可以通過繼續修改文字,不斷生成新視頻。
過去,是你有了靈感再去做視頻。從你的頭腦裡的“靈光一閃”,落實到視頻成品,要經過漫長的製作週期。你得先把“靈光”變成更具體的信息,拆解成一步又一步,然後去拍攝、剪輯、調色,纔有成品。
而現在,根據你模糊的需求,就能生成視頻。這讓靈感從你腦子裡走向現實的時間,大大縮短了。
一個個成品,直接呈現在你面前。甚至,能反哺你的靈感。
生成的視頻,有時甚至比你還要更懂你的想法。因爲它是快速的,具體的。
現在,你就能理解,爲什麼Sora作爲一個視頻製作工具,它並不是鋪滿了圖層、色彩、聚焦等等複雜菜單。而是,簡潔無比的4個選擇。你能快速進行基礎設置。
1)畫面比例。橫屏、豎屏或者正方形。2)分辨率。480p、720p還是1080p。3)時長。5s、10s、15s還是20s。4)一次生成幾個視頻。用來對比選擇。
這大大降低了視頻製作的使用門檻。
它是你的半個同事,能“試着理解”你說的話。
今天的文生視頻AI軟件,已經不僅僅是“人在使用工具”,而是“人和AI在協作”。
可是,它們爲什麼“突然”就能“理解”了呢?
這就要說到第二個關鍵詞,信息載體。
現在,你想做一個產品宣傳視頻。你可能會打開一個白板,開始構思腳本。如果你有設計夥伴,你可能會把你的需求告訴他,讓他幫你一起設計。設計完後,再和做視頻的夥伴協作,最後才能產出一個視頻。
但是,這一切想要順利,都得建立在,你每次清楚知道自己需要什麼的情況下。
你跟設計師講,“我想要一個漂亮的視頻,穿搭要對比鮮明”。然後等啊等,等他把成品給你,你卻發現和你的想法完全不同。你覺得,鮮綠色和亮紅色放一起怎麼能算“漂亮”呢?設計師卻說,這是這個季節很流行的搭配啊,你不是說要“對比鮮明”嗎?
反反覆覆,好不容易敲定了設計,你又去等視頻夥伴。再來一輪修改循環。
當最後的視頻出來,依然不是你想要的效果。
然而,已經來不及修改了。你很難受,你的設計夥伴和視頻夥伴也都很委屈。
但如果,你根據模模糊糊的想法,先生成一系列的視頻,再選一個符合你想象的成品小樣拿去給視頻夥伴看呢?
溝通成本,就大大減少了。
因爲視頻能夠傳遞的信息,比文字更豐富、更直觀。
你拿視頻給同事,同事可以更精準地“學習”到你的想法。那,如果你不斷拿視頻投喂AI呢?AI是不是也能夠,更精準地“學習”現實世界?
這就要靠第三個關鍵詞,世界模型。
2月Sora出來的時候,有三個亮點:一次性生成60s高清視頻、多角度鏡頭無縫連接,以及,世界模型。而到了12月,三個亮點都還在,但是生成視頻的長度,反而從最多60s,變成了最多20s。
爲什麼看上去,反而“倒退”了?解釋這種“倒退”的,是Sora的後綴,Turbo,“加速”的意思。
雖然一次生成的視頻時間短了,但是生成的速度,變快了。
一方面,是因爲多角度無縫銜接,細分成了前面寫到的Remix、Blend、Loop、Storyboard等更細緻的修改功能。另一方面,是因爲世界模型。
什麼是世界模型?
你可以先簡單想象一下:計算機所在的世界,和我們所生活的世界,是兩個不同的世界。而世界模型,就是讓計算機從它的窗口盯着我們的世界,使勁地看,使勁地學。
而你要做的,就是不斷給它投喂營養,讓它不斷記憶,然後不斷預測。
ChatGPT的誕生,驗證了這樣的“養育”方式,在文字方面,是可行的。
投餵了很多很多文字資料後,你對計算機輸入“我”,它就會生成下一個字,可能是“我要”,可能是“我想”,可能是“我是”。
它會根據你的描述,不斷迭代怎麼預測下一個字,更符合你想要的樣子。
而Sora的誕生,則是再次驗證了“養育”方式的可行性。或者說,對“真實世界”的學習能力的可行性。
所以,OpenAI突然上線的Sora,爲什麼能讓我們如此激動?
不僅僅是因爲它能生成更像樣的視頻了。更是因爲,它更懂這個世界了。
原來當你不斷投喂營養,計算機這個小孩,真的可以開始“長大成人”,開始“理解”你,理解這個世界,能處理更復雜的問題了。
你不斷給它真實世界的信息,它就開始有“智能”了。
文字,是信息,但是有些模糊。圖片,是信息,似乎比文字更好懂一點。視頻,也是信息,而且是無比豐富的信息。
它最接近真實世界。因爲我們在世界裡,都是“會動”的。
計算機你看,那個人類吃漢堡的時候,一口咬下去,剩下的漢堡不是整塊的了。看到這段的時候,計算機你先記下來。下一次,你又看到另一個人類吃包子,他張開嘴,咬包子的時候,你試試預測一下,會是什麼場景?
“包子穿嘴而過。”錯了錯了,你再想想?“牙齒碰到的地方會下沉。”對了對了,很接近了,然後呢?“接着會出現一圈齒痕,而咬掉的部分包子,會在嘴裡消失不見。”
投喂,再投喂。記憶,再記憶。然後,預測,再預測。
(Sora製作完視頻,可以分享到社區)
最終,越來越“逼真”,越來越“智能”。
當然,這類文生視頻、圖生視頻的AI工具,今天還有很多很多的瑕疵。
比如金毛跳到半空屁股變成了頭,頭變成了屁股。比如偶爾還會出現人物肢體變形、物體突然消失。又比如,因爲成本太高,一次生成的視頻時間在縮短。
但是GPT的出現,以及Sora的出現,都在一次次驗證計算機能夠按照人類的學習規律進行學習:先記憶,後預測。
“記憶”越是多,“預測”,就越是有機會更準確。
這也是爲什麼,未來,來得越來越快了。
GPT-1在2018年發佈,用了5年時間,迭代到GPT-3.5才亮相,被衆人所知。而從GPT-3.5亮相,到Sora春節第一次發佈,只用了1年多。再到現在的Sora Turbo開展公衆註冊,則是10個月。而且,按照奧特曼的說法,這還只是視頻版GPT-1,還是一個初級版本。
那麼,我們呢?在“未來”面前,我們該怎麼辦?
這次的發佈會,我想奧特曼真正想表達的,是呼籲你我去和AI協作。然後,儘早找到自己的正確節奏。
開發大模型很昂貴。迭代大模型需要很複雜的技術。但是,普普通通的你和我,都會有和AI相處的節奏。
細分,是機會。比如專門做數字人口型。組合,是機會。比如製作AI創意視頻。
關鍵的是,你的節奏是什麼?
OpenAI官方的教學視頻裡面,有一句讓我印象特別深刻。
正確的節奏下,AI從來都不是在替代,而是在共同協作,是在彌補信息不對稱,是在讓新舊世界重構。
祝你,找到你的節奏。
共勉。
*個人觀點,僅供參考。 *頭圖來自於sora官網
參考資料
主筆/ 木言聲編輯/ 二蔓版面/ 黃 靜
這是劉潤公衆號的第2454篇原創文章