廣西城鄉(xiāng)和住房建設(shè)廳網(wǎng)站黃頁(yè)推廣
本文約4000字,目標(biāo)是快速建立AIGC知識(shí)體系,含有大量的計(jì)算專(zhuān)業(yè)名詞,建議閱讀同時(shí)擴(kuò)展搜索。
一、行業(yè)現(xiàn)狀
1、概念界定
區(qū)別于PGC與UGC不同的,AIGC是利用人工智能技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式。
2、數(shù)據(jù)模態(tài)
按照模態(tài)區(qū)分,AIGC又可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的跨模態(tài)生成,細(xì)分場(chǎng)景眾多,其中跨模態(tài)生成值得重點(diǎn)關(guān)注。
模態(tài)是指數(shù)據(jù)的存在形式,比如文本、音頻、圖像、視頻等文件格式
跨模態(tài),指的是像以文生成圖/視頻或者以圖生成文這種情況
例如,百度的文心一格就是典型的以文生成圖:
3、發(fā)展歷程
AIGC 的發(fā)展可以大致分為以下三個(gè)階段:
- 早期萌芽階段:20 世紀(jì) 50 年代—90 年代中期,受限于科技水平,AIGC 僅限于小范圍實(shí)驗(yàn)
- 沉積積累階段:20 世紀(jì) 90 年代中期—21 世紀(jì) 10 年代中期,AIGC 從實(shí)驗(yàn)向?qū)嵱棉D(zhuǎn)變,受限于算法,無(wú)法直接進(jìn)行內(nèi)容生成
- 快速發(fā)展階段:21 世紀(jì) 10 年代中期—現(xiàn)在,深度學(xué)習(xí)算法不斷迭代,AI 生成內(nèi)容種類(lèi)多樣豐富且效果逼真
二、技術(shù)實(shí)現(xiàn)
AIGC 技術(shù)主要涉及兩個(gè)方面:自然語(yǔ)言處理 NLP 和 AIGC 生成算法。
1、NLP自然語(yǔ)言處理
自然語(yǔ)言處理(NLP)賦予了AI理解和生成能力,是實(shí)現(xiàn)人與計(jì)算機(jī)之間如何通過(guò)自然語(yǔ)言進(jìn)行交互的手段。
NLP技術(shù)可以分為兩個(gè)方向:NLU和NLG。
1.1 自然語(yǔ)言理解 NLU
NLU使得計(jì)算機(jī)能夠和人一樣,具備正常人的語(yǔ)言理解能力。
過(guò)去,計(jì)算機(jī)只能處理結(jié)構(gòu)化的數(shù)據(jù),NLU 使得計(jì)算機(jī)能夠識(shí)別和提取語(yǔ)言中的意圖來(lái)實(shí)現(xiàn)對(duì)于自然語(yǔ)言的理解。
由于自然語(yǔ)言的多樣性、歧義性、知識(shí)依賴(lài)性和上下文,計(jì)算機(jī)在理解上有很多難點(diǎn),所以 NLU 至今還遠(yuǎn)不如人類(lèi)的表現(xiàn)。
自然語(yǔ)言理解跟整個(gè)人工智能的發(fā)展歷史類(lèi)似,一共經(jīng)歷了 3 次迭代:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和基于深度學(xué)習(xí)的方法。
1.2 自然語(yǔ)言生成 NLG
NLG將非語(yǔ)言格式的數(shù)據(jù)轉(zhuǎn)換成人類(lèi)可以理解的語(yǔ)言格式,如文章、報(bào)告等。
NLG 的發(fā)展經(jīng)歷了三個(gè)階段,從早期的簡(jiǎn)單的數(shù)據(jù)合并到模板驅(qū)動(dòng)模式再到現(xiàn)在的高級(jí) NLG,使得計(jì)算機(jī)能夠像人類(lèi)一樣理解意圖,考慮上下文,并將結(jié)果呈現(xiàn)在用戶可以輕松閱讀和理解的敘述中。
自然語(yǔ)言生成可以分為以下六個(gè)步驟:內(nèi)容確定、文本結(jié)構(gòu)、句子聚合、語(yǔ)法化、參考表達(dá)式生成和語(yǔ)言實(shí)現(xiàn)。
1.3 神經(jīng)網(wǎng)絡(luò) RNN
神經(jīng)網(wǎng)絡(luò),尤其是循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 是當(dāng)前 NLP 的主要方法的核心。
其中,2017 年由 Google 開(kāi)發(fā)的 Transformer 模型現(xiàn)已逐步取代長(zhǎng)短期記憶(LSTM)等 RNN 模型成為了 NLP 問(wèn)題的首選模型。
Transformer 的并行化優(yōu)勢(shì)允許其在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,這也促成了 BERT、GPT 等預(yù)訓(xùn)練模型的發(fā)展。
相關(guān)系統(tǒng)使用了維基百科、Common Crawl 等大型語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,并可以針對(duì)特定任務(wù)進(jìn)行微調(diào)。
1.4 Transformer 模型
Transformer 模型是一種采用自注意力機(jī)制的深度學(xué)習(xí)模型,這一機(jī)制可以按輸入數(shù)據(jù)各部分重要性的不同而分配不同的權(quán)重。
與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)一樣,Transformer 模型旨在處理自然語(yǔ)言等順序輸入數(shù)據(jù),可應(yīng)用于翻譯、文本摘要等任務(wù)。與 RNN 不同的是,Transformer 模型能夠一次性處理所有輸入數(shù)據(jù)。
注意力機(jī)制可以為輸入序列中的任意位置提供上下文。如果輸入數(shù)據(jù)是自然語(yǔ)言,則 Transformer 不必像 RNN 一樣一次只處理一個(gè)單詞,這種架構(gòu)允許更多的并行計(jì)算,并以此減少訓(xùn)練時(shí)間。
ChatGPT是OpenAI從GPT-3.5、GPT-4系列中的模型進(jìn)行微調(diào)產(chǎn)生的聊天機(jī)器人模型,能夠通過(guò)學(xué)習(xí)和理解人類(lèi)的語(yǔ)言來(lái)進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類(lèi)一樣來(lái)聊天交流。
2、AIGC算法
- AIGC 生成算法主流的有生成對(duì)抗網(wǎng)絡(luò) GAN 和擴(kuò)散模型
- 擴(kuò)散模型已經(jīng)擁有了成為下一代圖像生成模型的代表的潛力
2.1 生成對(duì)抗網(wǎng)絡(luò) GAN
GAN是生成模型的一種,透過(guò)兩個(gè)神經(jīng)網(wǎng)絡(luò)相互博弈的方式進(jìn)行學(xué)習(xí)。
GAN 被廣泛應(yīng)用于廣告、游戲、娛樂(lè)、媒體、制藥等行業(yè),可以用來(lái)創(chuàng)造虛構(gòu)的人物、場(chǎng)景,模擬人臉老化,圖像風(fēng)格變換,以及產(chǎn)生化學(xué)分子式等等。
2.2 擴(kuò)散模型 Diffusion Model
GAN(生成對(duì)抗網(wǎng)絡(luò))有生成器和鑒別器,它們相互對(duì)抗,然后生成圖像,由于模型本身具有對(duì)抗性,因此很難進(jìn)行訓(xùn)練,利用擴(kuò)散模型可以解決這個(gè)問(wèn)題。
擴(kuò)散模型也是生成模型,擴(kuò)散模型背后的直覺(jué)來(lái)源于物理學(xué)。在物理學(xué)中氣體分子從高濃度區(qū)域擴(kuò)散到低濃度區(qū)域,這與由于噪聲的干擾而導(dǎo)致的信息丟失是相似的。
Diffusion通過(guò)引入噪聲,然后嘗試通過(guò)去噪來(lái)生成圖像。在一段時(shí)間內(nèi)通過(guò)多次迭代,模型每次在給定一些噪聲輸入的情況下學(xué)習(xí)生成新圖像。
2.3 Lora模型
LoRA是Low-Rank Adaption of large language model的縮寫(xiě),是一種大語(yǔ)言模型fine-tune的方法。
Lora主要思路是在固定大網(wǎng)絡(luò)的參數(shù),并訓(xùn)練某些層參數(shù)的增量,且這些參數(shù)增量可通過(guò)矩陣分解變成更少的可訓(xùn)練參數(shù),大大降低finetune所需要訓(xùn)練的參數(shù)量。
三、商業(yè)落地
1、A應(yīng)用場(chǎng)景
- AIGC 在文字、圖像、音頻、游戲和代碼生成中商業(yè)模型漸顯
2、產(chǎn)業(yè)地圖
2.1 產(chǎn)業(yè)上游:數(shù)據(jù)服務(wù)
- 人工智能的分析、創(chuàng)作、決策能力都依賴(lài)海量數(shù)據(jù)
- 決定不同機(jī)器間能力差異的就是數(shù)據(jù)的數(shù)量與質(zhì)量
2.2 產(chǎn)業(yè)中游:算法模型
算法模型是AIGC最核心的環(huán)節(jié),是機(jī)器學(xué)習(xí)的關(guān)鍵所在。通常包含三類(lèi)參與者:專(zhuān)門(mén)實(shí)驗(yàn)室、企業(yè)研究院、開(kāi)源社區(qū)。
AI實(shí)驗(yàn)室:算法模型在AI系統(tǒng)中起決策作用,是它完成各種任務(wù)的基礎(chǔ),可以視為AI系統(tǒng)的靈魂所在。
企業(yè)研究院:一些集團(tuán)型公司或企業(yè)往往會(huì)設(shè)立專(zhuān)注于前沿科技領(lǐng)域的大型研究院,下設(shè)不同領(lǐng)域的細(xì)分實(shí)驗(yàn)室,通過(guò)學(xué)術(shù)氛圍更濃厚的管理方式為公司的科研發(fā)展添磚加瓦。
開(kāi)源社區(qū):社區(qū)對(duì)AIGC非常重要,它提供了一個(gè)共享成果、代碼的平臺(tái),與其他人相互合作,共同推動(dòng)AIGC相關(guān)技術(shù)的進(jìn)步。根據(jù)覆蓋領(lǐng)域的寬度和深度,這種社區(qū)可以分為綜合型開(kāi)源社區(qū)和垂直型開(kāi)源社區(qū)。
2.3 產(chǎn)業(yè)下游:應(yīng)用拓展
3、細(xì)分市場(chǎng)
3.1 文本處理
文本處理是AIGC相關(guān)技術(shù)距離普通消費(fèi)者最近的場(chǎng)景,技術(shù)較為成熟。
一般說(shuō)來(lái)文本處理可以細(xì)分為營(yíng)銷(xiāo)型、銷(xiāo)售型、續(xù)寫(xiě)型、知識(shí)型、通用型、輔助型、交互型、代碼型。
3.2 音頻處理
目前的音頻處理主要分為三類(lèi):音樂(lè)型、講話型、定制型,AI的應(yīng)用將優(yōu)化供給效率,改善整體利潤(rùn)水平。
3.3 圖片處理
圖片的創(chuàng)作門(mén)檻比文字高,傳遞信息也更直觀,隨著AIGC應(yīng)用的日益廣泛,圖片處理也就從廣告、設(shè)計(jì)、編輯等角度帶來(lái)更大更多的機(jī)遇。圖片處理可細(xì)分為生成型、廣告型、設(shè)計(jì)型、編輯型。
3.4 視頻處理
視頻日益成為新時(shí)代最主流的內(nèi)容消費(fèi)形態(tài),將AIGC引入視頻將是全新的賽道,也是技術(shù)難度最大的領(lǐng)域。視頻處理可以細(xì)分為生成型、編輯型、定制型、數(shù)字虛擬人視頻。
3.5 代碼生成
以GitHub Copilot為例,Copilot是GitHub 和 OpenAI 合作產(chǎn)生的 AI 代碼生成工具,可根據(jù)命名或者正在編輯的代碼上下文為開(kāi)發(fā)者提供代碼建議。官方介紹其已經(jīng)接受了來(lái)自 GitHub 上公開(kāi)可用存儲(chǔ)庫(kù)的數(shù)十億行代碼的訓(xùn)練,支持大多數(shù)編程語(yǔ)言。
四、面臨挑戰(zhàn)
除了技術(shù)上亟待解決的算力、模型準(zhǔn)確性之外,目前AIGC相關(guān)的挑戰(zhàn)主要集中在版權(quán)、欺詐、違禁內(nèi)容三方面。
1、版權(quán)問(wèn)題
- AIGC是機(jī)器學(xué)習(xí)的應(yīng)用,而在模型的學(xué)習(xí)階段一定會(huì)使用大量數(shù)據(jù),但目前對(duì)訓(xùn)練后的生成物版權(quán)歸屬問(wèn)題尚無(wú)定論
- 為什么AI基于自己創(chuàng)作的作品生成的新作品卻與自己無(wú)關(guān)?而且現(xiàn)行法律都是針對(duì)人類(lèi)的行為規(guī)范而設(shè)立的
- AI只是一種工具,不受法律約束與審判,即便證據(jù)充分,作者的維權(quán)之路通常也難言順利
- 不過(guò)對(duì)于AIGC與作者的關(guān)系將會(huì)隨著時(shí)代發(fā)展而逐漸清晰,界定也將更有條理性
2、欺詐問(wèn)題
- 高科技詐騙手段層出不窮,AI經(jīng)過(guò)訓(xùn)練后也可以創(chuàng)作出以假亂真的音視頻,“換臉”“變聲”等功能,濫用危害甚大
- 部分詐騙分子利用“換臉”技術(shù)實(shí)施詐騙,也有不法分子惡意偽造他人視頻,再轉(zhuǎn)手兜售到灰色市場(chǎng)
3、違禁內(nèi)容
- AIGC取決于使用者的引導(dǎo),AI對(duì)惡意誘導(dǎo)會(huì)不加分辨或判斷,會(huì)根據(jù)學(xué)習(xí)到的信息輸出極端或暴力言論
- AIGC作為內(nèi)容生產(chǎn)的新范式,也對(duì)國(guó)家相關(guān)法律法規(guī)機(jī)構(gòu)及監(jiān)管治理能力都提出了更高要求
參考資料
https://chat.openai.com/chat
https://arxiv.org/pdf/1706.03762.pdf
https://arxiv.org/pdf/1406.2661.pdf
https://arxiv.org/pdf/1409.2329.pdf
https://arxiv.org/pdf/2112.10752.pdf
https://arxiv.org/pdf/2106.09685.pdf
https://github.com/pbloem/former
https://github.com/haofanwang/Lora-for-Diffusers/blob/main/convert_lora_safetensor_to_diffusers.py
AIGC:內(nèi)容生產(chǎn)力的革命—國(guó)海證券
AIGC發(fā)展趨勢(shì)報(bào)告2023—騰訊研究院
2023AIGC行業(yè)研究報(bào)告—甲子光年