做網(wǎng)站ie緩存重慶seo團隊
Sora,美國人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”?),于2024年2月15日(美國當(dāng)?shù)貢r間)正式對外發(fā)布。
Sora可以根據(jù)用戶的文本提示創(chuàng)建最長60秒的逼真視頻,該模型了解這些物體在物理世界中的存在方式,可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復(fù)雜場景。繼承了DALL-E 3的畫質(zhì)和遵循指令能力,能理解用戶在提示中提出的要求。
Sora對于需要制作視頻的藝術(shù)家、電影制片人或?qū)W生帶來無限可能,其是OpenAI“教AI理解和模擬運動中的物理世界”計劃的其中一步,也標(biāo)志著人工智能在理解真實世界場景并與之互動的能力方面實現(xiàn)飛躍。
Sora在日語中是“天空”(そら)的意思,引申含義還有“自由”,象征著其無限的創(chuàng)造潛力。
行業(yè)背景
-
OpenAI在大模型領(lǐng)域的成功
2022年底,OpenAI正式推出ChatGPT,這款由人工智能技術(shù)驅(qū)動的自然語言處理工具能夠通過學(xué)習(xí)和理解人類的語言來進行對話。ChatGPT是OpenAI邁出的第一步,這款讓所有人都能體會到人工智能潛力的現(xiàn)象級產(chǎn)品,展現(xiàn)出了文字對于過去人工智能的理解力和邏輯能力的超越。隨后,OpenAI的開發(fā)重點逐步過渡到圖像的生成,Dall-E模型在生成圖像方面也獲得了重大突破。
-
視覺算法的進步
????????視覺算法近年來的突破在泛化性、可提示性、生成質(zhì)量和穩(wěn)定性等方面均取得了進展,這預(yù)示著技術(shù)拐點的臨近以及爆款應(yīng)用的涌現(xiàn)。特別是在3D資產(chǎn)生成和視頻生成領(lǐng)域,由于擴散算法的成熟,這些領(lǐng)域受益匪淺。然而,與圖像生成相比,3D資產(chǎn)和視頻生成在數(shù)據(jù)和算法方面面臨的難點更多?。
????????盡管如此,考慮到大型語言模型(LLM)對人工智能各領(lǐng)域的加速作用以及已經(jīng)出現(xiàn)的優(yōu)秀開源模型,2024年該行業(yè)有望實現(xiàn)更大的發(fā)展。在2023年末至2024年初,Pika、HeyGen等人工智能生成的視頻應(yīng)用逐漸受到關(guān)注,這驗證了多模態(tài)技術(shù)的持續(xù)進步與成熟?。但與此同時,民主倡導(dǎo)者和人工智能研究人員警告說,這些工具已經(jīng)被用來欺騙和欺騙民眾。
發(fā)展歷程
模型發(fā)展
2021年1月5日
文生圖模型Dall-E發(fā)布
Dall-E可以根據(jù)簡單的描述創(chuàng)建逼真和清晰的圖像,精通各種藝術(shù)風(fēng)格,還可以生成文字制作建筑物上的標(biāo)志,并制作同一場景的草圖和全彩圖像。
2022年4月
Dall-E 2發(fā)布
Dall-E 2不僅可以生成更真實和更準(zhǔn)確的畫像,而且能夠?qū)⑽谋久枋鲋械母拍睢傩院惋L(fēng)格等元素綜合起來,生成現(xiàn)實主義的圖像和藝術(shù)作品。
2022年11月30日
大語言模型ChatGPT發(fā)布?
ChatGPT不僅能與人對話,還能編寫代碼、創(chuàng)作內(nèi)容等,這一款革命性產(chǎn)品的上線引發(fā)全球關(guān)注,上線僅5天用戶數(shù)量就已突破100萬。
2023年3月15日
GPT-4正式面世
GPT-4可以更準(zhǔn)確地解決用戶的難題,多模態(tài)的GPT-4還可以生成、編輯具有創(chuàng)意性或技術(shù)性的文章,在高級推理方面的表現(xiàn)超過其前代產(chǎn)品。
2023年9月21日
Dall-E 3正式發(fā)布
Dall-E 3能夠更準(zhǔn)確、更優(yōu)秀地生成效果,可以更準(zhǔn)確地呈現(xiàn)用戶的想法,用戶可以要求ChatGPT提供合適的提示詞。
2024年2月16日
Sora問世?
Sora繼承了Dall-E 3的畫質(zhì)和遵循指令能力,可以根據(jù)用戶的文本提示創(chuàng)建逼真的視頻,可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復(fù)雜場景。Sora能夠根據(jù)提示詞生成60s的連貫視頻,“碾壓”了行業(yè)目前大概只有平均“4s”的視頻生成長度。
功能特色
優(yōu)點
-
功能綜述
Sora可以快速制作最長一分鐘、準(zhǔn)確反映用戶提示、可一鏡到底的視頻?(其他AI視頻工具還在突破幾秒內(nèi)的連貫性?),視頻可以呈現(xiàn)“具有多個角色、特定類型的動作、以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場景”?。
中國龍年舞龍
雨后的東京街頭
行駛中的列車窗外
好萊塢大片質(zhì)感的電影預(yù)告片
加州淘金熱時期的歷史鏡頭
玻璃球的特寫視圖
24歲女性眨眼的極端特寫
-
靜態(tài)圖生成視頻
Sora還具備根據(jù)靜態(tài)圖像生成視頻的能力,能夠讓圖像內(nèi)容動起來,并關(guān)注細(xì)節(jié)部分,使得生成的視頻更加生動逼真,這一功能在動畫制作、廣告設(shè)計等領(lǐng)域具有應(yīng)用前景。
-
視頻擴展與缺失幀填充
Sora能夠獲取現(xiàn)有視頻并對其進行擴展或填充缺失的幀,這一功能在視頻編輯、電影特效等領(lǐng)域具有應(yīng)用前景,可以幫助用戶快速完成視頻內(nèi)容的補充和完善?。
-
連接視頻
可以使用Sora連接兩個輸入視頻,在具有完全不同主題和場景組成的視頻之間實現(xiàn)無縫過渡。
-
其他能力
能力 | 描述 |
---|---|
圖像生成 | Sora可以生成各種尺寸的圖像,分辨率最高達(dá)2048×2048。 |
3D一致 | Sora可以生成動態(tài)運動的視頻,隨著相機的移動和旋轉(zhuǎn),人和場景元素在三維空間中一致移動。 |
遠(yuǎn)距離連貫性 物體持久性 | Sora通常能夠有效地對短期和長期依賴關(guān)系進行建模,包括人、動物和物體的持久化,即使它們被遮擋或離開框架。同時,它還能在單個樣本中生成同一角色的多個鏡頭,以保持其在整個視頻中的外觀。 |
互動性 | Sora有時可以用簡單的方式模擬影響世界狀態(tài)的動作。例如一個畫家可以在畫布上留下新的筆觸,并隨著時間的推移而持續(xù),或者一個男人可以吃漢堡并留下咬痕。 |
模擬數(shù)字世界 | Sora可以模擬人工過程,例如電子游戲,并能夠通過基本策略控制玩家,同時高保真地渲染世界及其動態(tài)?。 |
多機位 | Sora可以生成多機位、多角度的視頻?。 |
缺點
狼在追逐打鬧過程中,可能會憑空多出或消失
Sora也存有以下弱點:可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,無法理解因果關(guān)系,混淆提示的空間細(xì)節(jié),難以精確描述隨著時間推移發(fā)生的事件。
沒有正確表示籃球穿過籃筐的過程
例如,在“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”的場景中,狼的數(shù)量會變化,一些憑空出現(xiàn)或消失。在提示詞“籃球穿過籃筐然后爆炸”中,籃球沒有正確被籃筐阻擋。
OpenAI表示,Sora存在不成熟之處,可能難以理解因果關(guān)系,多位人工智能領(lǐng)域人士表示,該問題可能因其概率模式的邏輯存有“硬傷”。加大訓(xùn)練量、增加訓(xùn)練數(shù)據(jù)與物理邏輯可改善該問題,但無法根治。想要真正突破最底層邏輯上的問題,因果關(guān)系是一條必經(jīng)之路。
技術(shù)特點
多幀預(yù)測生成
Sora是一種擴散模型,具備從噪聲中生成完整視頻的能力,它生成的視頻一開始看起來像靜態(tài)噪音,通過多個步驟逐漸去除噪聲后,視頻也從最初的隨機像素轉(zhuǎn)化為清晰的圖像場景,其能夠一次生成多幀預(yù)測,確保畫面主體在暫時離開視野時仍保持一致。
特殊架構(gòu)
Sora采用與GPT模型相似的Transformer架構(gòu),OpenAI用Transformer結(jié)構(gòu)替代Diffusion模型中常用的U-Net結(jié)構(gòu),提升了原來Diffusion模型在深度和寬度上的可擴展性,為視頻模型增加輸出時長奠定基礎(chǔ)?。Transformer架構(gòu)能夠處理長序列數(shù)據(jù),并通過自注意力機制捕捉數(shù)據(jù)中的依賴關(guān)系,從而提高模型的生成能力?。但為了解決Transformer架構(gòu)在長文本和高分辨率圖像處理上的問題,擴散模型采用更可擴展的狀態(tài)空間模型(SSM)主干替代了傳統(tǒng)的注意力機制,從而減少了算力需求,并能夠生成高分辨率圖像?。
?
重述提示詞
Sora借鑒DALL-E 3的“重述提示詞技術(shù)”,為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的標(biāo)注,這使得模型能夠更忠實地遵循用戶的文本指令,生成符合用戶需求的視頻內(nèi)容,同時也提高了模型的靈活性和可控性。
數(shù)據(jù)表示
OpenAI將視頻和圖像表示為Patch,類似于GPT中的token,這種統(tǒng)一的數(shù)據(jù)表示方式使得Sora能夠在更廣泛的視覺數(shù)據(jù)上進行訓(xùn)練,涵蓋不同的持續(xù)時間、分辨率和縱橫比,有助于模型學(xué)習(xí)到更豐富的視覺特征,提高生成視頻的質(zhì)量和多樣性。
原生規(guī)模訓(xùn)練
Sora采用“原生規(guī)模訓(xùn)練”,過往的圖像和視頻生成通常會將視頻調(diào)整為標(biāo)準(zhǔn)大小,但這樣會失去視頻的原始長寬比和細(xì)節(jié),而原生規(guī)模的訓(xùn)練方法可以帶來更好的效果。Sora可以對各種尺寸和縱橫比的視頻進行采樣,允許直接為不同尺寸的設(shè)備創(chuàng)建內(nèi)容,并快速原型化較低分辨率的內(nèi)容。與將視頻裁剪為正方形的模型相比,Sora可以生成更完整、更美觀的視頻?。
?社會影響
價值意義
Sora對于需要制作視頻的藝術(shù)家、電影制片人或?qū)W生來說,都帶來了無限可能。該模型可以深度模擬真實物理世界,標(biāo)志著人工智能在理解真實世界場景并與之互動的能力方面實現(xiàn)飛躍,也被認(rèn)為是實現(xiàn)通用人工智能(AGI)的重要里程碑,通過不斷深入研究和發(fā)展Sora等先進模型,有望在未來實現(xiàn)更加智能、高效和多樣化的視頻生成與處理技術(shù)。
產(chǎn)業(yè)格局
-
估值上漲
Sora發(fā)布后,OpenAI的估值迅速上漲(有望超過800億美元,2023年ChatGPT發(fā)布不久時其估值約為290億美元),且文生視頻大模型將會大幅推動人工智能基礎(chǔ)設(shè)施的需求,英偉達(dá)、OpenAI、軟銀等巨頭公司都被曝正在進行AI芯片的制造布局,英偉達(dá)也因大模型訓(xùn)練需要GPU算力支持而股價大漲?[38]。與此同時,受Sora發(fā)布的影響,美國圖片供應(yīng)商Shutterstock的股價大跌。
在中國,龍年開市第一天,Sora相關(guān)概念全線“爆發(fā)”,會暢通訊、當(dāng)虹科技、萬興科技、易點天下、因賽集團、東方國信、數(shù)碼視訊、華揚聯(lián)眾、國脈文化等股票均大幅上漲,多家公司回應(yīng)稱,將根據(jù)自身業(yè)務(wù)特點,在文生視頻技術(shù)落地、Sora應(yīng)用等方面尋找突破入口。
-
生產(chǎn)變革
浙商證券預(yù)測,Sora及同類產(chǎn)品將參與到改變信息生產(chǎn)和分發(fā)兩大環(huán)節(jié)的進程中,PGC(專業(yè)生產(chǎn)內(nèi)容)將廣泛采用AI工具輔助生產(chǎn),UGC(用戶生成內(nèi)容)將借助AI工具逐步替代PGC。此間,AI生成視頻工具的商業(yè)化將提速?。
Sora可生成一段長達(dá)60秒的視頻,遠(yuǎn)超市面同類AI產(chǎn)品視頻生成時長,60秒的視頻時長,已經(jīng)超過抖音等短視頻平臺的平均視頻時長,Sora的誕生也為以后短視頻平臺的內(nèi)容生產(chǎn)提供了更大的可能性。?
職業(yè)取代
截至2024年2月,已有一些視覺藝術(shù)家、設(shè)計師和電影制作人以及OpenAI員工獲得了Sora訪問權(quán)限,他們也已開始在社交平臺不斷曬出使用Sora生成的新作品,為人們展示AI生成視頻的創(chuàng)意可能。許多網(wǎng)友稱“不少人要丟工作了”,甚至有人開始“悼念”一整個素材行業(yè)。
各界評價
類別 | 專家 | 評價 |
---|---|---|
科技界 | 英偉達(dá)科學(xué)家 DrJimFan | Sora是一個數(shù)據(jù)驅(qū)動的物理引擎,它是對許多世界的模擬,無論是真實的還是幻想的,模擬器通過一些去噪和梯度數(shù)學(xué)來學(xué)習(xí)復(fù)雜的渲染、“直觀”物理、長期推理和語義基礎(chǔ)。 |
趣丸集團副總裁 莊明浩 | Sora的面世影響的不僅是文生視頻領(lǐng)域,下一步將是過去一年各家游戲物理引擎廠商們一直在嘗試的自然語言改造生產(chǎn)流程,以及3D素材生產(chǎn)這個戰(zhàn)場?。 | |
伊利諾伊大學(xué)厄巴納-香檳分校 信息科學(xué)教授特德·安德伍德 | 沒想到在接下來的兩到三年內(nèi)還會出現(xiàn)這種持續(xù)、連貫的視頻生成水平。 | |
普林斯頓大學(xué)計算機科學(xué)教授 Arvind Narayanan | 根據(jù)OpenAI發(fā)布的視頻,Sora似乎比任何其他視頻生成工具都“先進得多”,這可能會導(dǎo)致“深度偽造”視頻,人們更難識別出人工智能生成的視頻?。 | |
360集團創(chuàng)始人、董事長 周鴻祎 | Sora將縮短AGI(通用人工智能)實現(xiàn)時間,從10年縮短到1年。OpenAI訓(xùn)練該模型應(yīng)該會以視頻和攝像頭捕捉的畫面為主,人工智能通過觀看大量視頻將對世界有更深入的理解,這離AGI實現(xiàn)不遠(yuǎn)?。 | |
圖靈獎得主、Meta首席AI科學(xué)家 楊立昆 | 根據(jù)提示詞生成的大部分逼真視頻并不表明這樣的AI系統(tǒng)理解物理世界,生成視頻的過程與基于世界模型的因果預(yù)測完全不同?。 | |
影視界 | 電影導(dǎo)演兼視覺效果專家 邁克爾·格雷西 | 很快,像Sora這樣的人工智能工具將允許電影制作者仔細(xì)控制他們的輸出,從頭開始創(chuàng)建各種視頻,當(dāng)技術(shù)剝奪了其他人的創(chuàng)造力、工作、想法和執(zhí)行力,卻沒有給予他們應(yīng)有的榮譽和經(jīng)濟報酬時,不是一件好事情?。 |
專業(yè)攝影師 孟凡 | Sora視頻幀率較高,說明計算能力比較強,且影片的寬容度更高,如調(diào)色、細(xì)節(jié)表現(xiàn)、高速鏡頭展現(xiàn)等。在直觀感受上,Sora 模型產(chǎn)出的視頻運鏡自然,物體運動符合規(guī)律,鏡頭間邏輯一致性好,但是Sora視頻的邏輯性會差一點?。 | |
中國電影文學(xué)學(xué)會副秘書長 杜紅軍 | 編劇、導(dǎo)演不必因Sora的出現(xiàn)而擔(dān)心,它是幫助實現(xiàn)影視效果的好工具,能夠激發(fā)更多人的內(nèi)容創(chuàng)造力。人類負(fù)責(zé)創(chuàng)意,AI負(fù)責(zé)創(chuàng)造,未來的電影創(chuàng)作將是概念片先行,可能不是在寫劇本,而是“寫”影像?。 | |
社會界 | 中國社會科學(xué)院法學(xué)研究所 副研究員唐林垚 | 相較于其他視頻類生成式AI,Sora在畫面清晰度、內(nèi)容流暢度、表意深度和精彩程度方面均有大幅提升,如果Sora的能力真如官方公布一樣強大,且之后可以像ChatGPT一樣便捷訪問,那么Sora將給廣告行業(yè)、影視行業(yè)和特效行業(yè)帶來極大的沖擊。? |
前記者、現(xiàn)斯坦福大學(xué)研究員 巴西勒·西蒙 | 在生成式人工智能方面有了可怕的飛躍,可以快速生成逼真的作品,這些工具可能會在選舉中被濫用,公眾將可能“不再知道該相信什么”?。 |
主要競品
公司 | 產(chǎn)品 | 技術(shù)路線 | 發(fā)布時間 |
---|---|---|---|
英偉達(dá) | PYoCo | 擴散模型 | 2023.05 |
Runway | Gen-2 | 擴散模型 | 2023.06 |
Pika Labs | Pika?1.0 | 擴散模型 | 2023.11 |
Meta | Emu Video | 擴散模型 | 2023.11 |
Stability AI | Stable Video Diffusion | 擴散模型 | 2023.11 |
谷歌 | Video Poet | Transformer | 2023.12 |
字節(jié)跳動 | MagicVideo-V2 | 擴散模型 | 2024.01 |
相較于其他模型,Sora的優(yōu)勢主要是三方面:
-
第一:可以生成長達(dá)60秒鐘的視頻,包括多個角色、特定類型動作和主題背景;
-
第二:可以在單個生成的視頻中創(chuàng)建多個鏡頭,模擬復(fù)雜的攝像機運鏡,同時準(zhǔn)確地保持角色和視覺風(fēng)格;
-
第三:能夠理解物體在現(xiàn)實世界中的物理規(guī)律和存在方式?。
-
社會爭議
虛假信息
????????Sora的發(fā)布引發(fā)了關(guān)于虛假信息傳播的爭議。其強大的圖像視頻生成能力達(dá)到了以假亂真的程度,這不僅改變了人們“眼見為實”的傳統(tǒng)觀念,還可能帶來一系列社會問題,如視頻證據(jù)真實性和有效性的驗證難題。在Sora問世前已有多起利用AI偽造視頻進行詐騙的案例,顯示了AI生成視頻可能被濫用于非法目的的風(fēng)險。Sora的普及可能會進一步降低制作高質(zhì)量虛假視頻的門檻,加劇虛假信息的傳播。盡管互聯(lián)網(wǎng)平臺已有針對特定類型虛假信息的檢測機制,但對于復(fù)雜難辨的信息仍需加強深度分析和及時阻斷。隨著AI生成內(nèi)容的激增,網(wǎng)絡(luò)上的合成內(nèi)容將大量存在,這要求不僅在技術(shù)上持續(xù)改進,還需建立更全面的治理體系來有效應(yīng)對虛假信息的挑戰(zhàn)。
版權(quán)問題
????????Sora可能引發(fā)侵權(quán)爭議。一方面,Sora生成的視頻版權(quán)是否受到保護尚不明確,這可能導(dǎo)致使用這些視頻的主體面臨侵權(quán)索賠和版權(quán)保護追溯的風(fēng)險。另一方面,Sora在訓(xùn)練過程中使用了相關(guān)素材,即使只是用這些素材進行訓(xùn)練,也可能存在潛在的侵權(quán)風(fēng)險?。
源自:Sora(OpenAI發(fā)布的人工智能文生視頻大模型)_百度百科