做網(wǎng)站用什么云服務(wù)器常用的營銷策略
1.概述
藝術(shù)、交流以及我們對現(xiàn)實世界的認知正在迅速地轉(zhuǎn)變。如果我們回顧人類創(chuàng)新的歷史,我們可能會認為輪子的發(fā)明或電的發(fā)現(xiàn)是巨大的飛躍。今天,一場新的革命正在發(fā)生——彌合人類創(chuàng)造力和機器計算之間的鴻溝。這正是生成式人工智能。
生成模型正在模糊人類和機器之間的界限。隨著采用Transformer模塊的GPT-4等模型的出現(xiàn),我們離自然且上下文豐富的語言生成又近了一步。這些進步推動了文檔創(chuàng)建、聊天機器人對話系統(tǒng),甚至合成音樂創(chuàng)作中的應(yīng)用。
最近大型科技公司的決策凸顯了其重要性。微軟已經(jīng)停止使用Cortana應(yīng)用程序,本月優(yōu)先考慮較新的生成式人工智能創(chuàng)新,例如Bing Chat。蘋果還投入了很大一部分資金,22.6億美元的研發(fā)預(yù)算,正如首席執(zhí)行官蒂姆·庫克所指出的,用于生成式人工智能。
這段話概述了生成式人工智能在藝術(shù)、交流和現(xiàn)實感知方面所帶來的變革,以及它在文檔創(chuàng)建、聊天機器人對話系統(tǒng)和音樂創(chuàng)作中的應(yīng)用。同時,也提到了微軟和蘋果等大型科技公司在這一領(lǐng)域的投資和決策,顯示了生成式人工智能在當前技術(shù)發(fā)展中的重要性。
2. 生成模型
生成式人工智能(Generative AI)的故事確實不僅限于它的應(yīng)用,還深刻地涉及其內(nèi)部運作機制。在人工智能領(lǐng)域,判別模型和生成模型是兩種基本的模型類型,它們各自扮演著不同的角色。
判別模型(Discriminative Models):
判別模型的主要任務(wù)是區(qū)分不同的類別或做出決策。它們通過學(xué)習(xí)輸入數(shù)據(jù)的特征和模式,然后根據(jù)這些特征來預(yù)測或分類新的數(shù)據(jù)點。在日常生活中,我們遇到的許多機器學(xué)習(xí)算法都屬于判別模型,例如:
- 圖像識別:識別圖像中的對象。
- 語音識別:將語音轉(zhuǎn)換為文本。
- 垃圾郵件過濾:判斷電子郵件是否為垃圾郵件。
- 醫(yī)學(xué)診斷:根據(jù)癥狀和測試結(jié)果預(yù)測疾病。
判別模型通常用于分類、回歸、異常檢測等任務(wù)。
生成模型(Generative Models):
與判別模型不同,生成模型的目標是生成新的數(shù)據(jù)實例,這些數(shù)據(jù)與訓(xùn)練數(shù)據(jù)具有相似的分布。它們不僅僅是解釋或預(yù)測已有的數(shù)據(jù),而是能夠創(chuàng)造出全新的內(nèi)容。生成模型的例子包括:
- 圖像生成:生成看起來真實的新圖像。
- 文本生成:創(chuàng)作詩歌、故事或?qū)υ挕?/li>
- 音樂合成:創(chuàng)作新的音樂作品。
- 數(shù)據(jù)增強:在訓(xùn)練機器學(xué)習(xí)模型時生成額外的訓(xùn)練數(shù)據(jù)。
生成模型通?;诟怕史植紒砩蓴?shù)據(jù),這意味著它們可以生成與訓(xùn)練數(shù)據(jù)分布相似的新實例,但具體內(nèi)容是全新的。
3. 生成模型背后的技術(shù)
生成模型之所以能夠存在并發(fā)展,確實在很大程度上歸功于深度神經(jīng)網(wǎng)絡(luò)技術(shù)的進步。深度神經(jīng)網(wǎng)絡(luò)(DNNs)是由多層人工神經(jīng)元組成的網(wǎng)絡(luò),它們能夠?qū)W習(xí)數(shù)據(jù)中的復(fù)雜模式和表示,這使得它們非常適合于生成任務(wù)。
這些生成模型是如何實現(xiàn)的?以下是一些關(guān)鍵點:
(1). 深度神經(jīng)網(wǎng)絡(luò):生成模型通常使用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)數(shù)據(jù)的高維表示。這些網(wǎng)絡(luò)能夠自動提取特征,而不需要手動設(shè)計特征提取器。
(2). 優(yōu)化:通過訓(xùn)練過程,網(wǎng)絡(luò)的權(quán)重會被優(yōu)化,以便能夠生成與訓(xùn)練數(shù)據(jù)相似的新數(shù)據(jù)實例。
(3). 生成對抗網(wǎng)絡(luò)(GAN):GAN由兩個關(guān)鍵部分組成,生成器(Generator)和判別器(Discriminator)。生成器的目標是產(chǎn)生逼真的數(shù)據(jù),而判別器的目標是區(qū)分真實數(shù)據(jù)和生成器產(chǎn)生的假數(shù)據(jù)。這兩部分在訓(xùn)練過程中相互競爭,推動彼此的性能提升。
(4). 變分自動編碼器(VAE):VAE是另一種生成模型,它通過編碼器將輸入數(shù)據(jù)映射到一個潛在空間的分布上,然后通過解碼器從這個分布中采樣來生成新的數(shù)據(jù)。VAE的關(guān)鍵特性是它能夠生成連續(xù)的數(shù)據(jù)點,并且可以控制生成過程的隨機性。
(5). 應(yīng)用領(lǐng)域:生成模型的應(yīng)用非常廣泛,包括藝術(shù)創(chuàng)作(如繪畫和風(fēng)格轉(zhuǎn)移)、音樂合成、游戲玩法設(shè)計等。它們能夠創(chuàng)造出新穎的內(nèi)容,推動創(chuàng)意產(chǎn)業(yè)的發(fā)展。
(6). 創(chuàng)造性和想象力:生成模型不僅僅是復(fù)制現(xiàn)有數(shù)據(jù),它們還能夠創(chuàng)造出全新的、以前從未存在過的數(shù)據(jù)實例,這在藝術(shù)和設(shè)計等領(lǐng)域尤其有價值。
4. 生成式 AI 類型:文本到文本、文本到圖像
4.1 Transformer和LLM
論文《Attention Is All You Need》由 Google Brain 團隊撰寫,代表了對文本建模方式的一次重大革新。該論文提出的 Transformer 模型放棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)等依賴序列展開的復(fù)雜結(jié)構(gòu),轉(zhuǎn)而采用了注意力機制這一創(chuàng)新概念。這種機制的核心在于,它能夠根據(jù)上下文動態(tài)地關(guān)注輸入文本的不同部分。
通過這種方式,Transformer 模型的主要優(yōu)勢之一是其易于并行化的能力。這與傳統(tǒng)的 RNN 形成鮮明對比,后者由于其內(nèi)在的序列處理特性,在擴展性上存在限制,特別是在處理大型數(shù)據(jù)集時。相比之下,Transformer 能夠同時處理整個序列的多個部分,極大地加速了訓(xùn)練過程,使得在大規(guī)模數(shù)據(jù)集上的訓(xùn)練變得更加迅速和高效。這一突破性的設(shè)計,為自然語言處理領(lǐng)域帶來了新的可能性,并為未來的研究和應(yīng)用奠定了基礎(chǔ)。
在長文本處理中,不是每個單詞或句子都同等重要。注意力機制正是為了解決這一問題而設(shè)計的,它模仿人類理解語言時的注意力分配,即根據(jù)上下文的重要性來調(diào)整對不同部分的關(guān)注。
以下面句子為例:“聯(lián)合人工智能發(fā)布人工智能和機器人新聞。” 在這個句子中,不同詞語承載著不同的信息量和指向性。當使用注意力機制來預(yù)測下一個單詞時,模型會分析上下文并識別關(guān)鍵詞匯,從而決定哪些部分更值得關(guān)注。
- “機器人”(robots)這個術(shù)語可能會吸引注意力,因為這是一個特定領(lǐng)域(人工智能的一個分支)的關(guān)鍵詞。在預(yù)測下一個單詞時,模型可能會考慮與機器人技術(shù)、應(yīng)用或最新發(fā)展相關(guān)的詞匯。
- “發(fā)布”(publishing)這個動作則可能表明接下來的內(nèi)容與新聞報道、研究成果的發(fā)布或信息的傳播有關(guān)。因此,模型可能會預(yù)測與文章、期刊、發(fā)現(xiàn)或公告相關(guān)的詞匯。
注意力機制通過為句子中的每個單詞分配一個權(quán)重(即注意力分數(shù)),來確定每個單詞在預(yù)測下一個單詞時的重要性。權(quán)重較高的單詞對模型的預(yù)測影響更大。這樣,模型不僅能夠捕捉局部的語法和語義信息,還能夠捕捉到更遠距離的依賴關(guān)系,這在處理復(fù)雜或長距離的語言結(jié)構(gòu)時尤為重要。
Transformers中的注意力機制確實設(shè)計得非常巧妙,它能夠?qū)崿F(xiàn)對輸入文本的選擇性關(guān)注。這種機制評估文本中不同部分的重要性,并在生成響應(yīng)時決定關(guān)注點,這與以往RNN等架構(gòu)將所有輸入信息壓縮進單一狀態(tài)或記憶中的方式截然不同。
注意力機制的工作原理類似于一個高效的鍵值檢索系統(tǒng)。在預(yù)測句子中的下一個單詞時,每個已出現(xiàn)的單詞都相當于提供了一個“鍵”,這個“鍵”指示了該單詞與預(yù)測任務(wù)的潛在相關(guān)性。然后,根據(jù)這些“鍵”與當前上下文(或查詢)的匹配程度,為每個單詞分配一個“值”或權(quán)重,這些權(quán)重共同作用于預(yù)測過程。
這種先進的深度學(xué)習(xí)模型已經(jīng)被廣泛應(yīng)用于各種場景,從谷歌的BERT搜索引擎優(yōu)化到GitHub的Copilot,后者利用大型語言模型(LLM)的能力,將簡單的代碼片段轉(zhuǎn)化為完整的源代碼。
GPT-4、Bard和LLaMA等大型語言模型(LLM)是規(guī)模龐大的結(jié)構(gòu),它們旨在解碼和生成人類語言、代碼等。這些模型的規(guī)模(從數(shù)十億到數(shù)萬億個參數(shù))是它們最顯著的特征之一。通過大量文本數(shù)據(jù)的訓(xùn)練,這些法學(xué)碩士掌握了人類語言的復(fù)雜性。它們的一項顯著能力是“少樣本學(xué)習(xí)”,這意味著與傳統(tǒng)模型相比,它們能夠從極少量的示例中進行有效的學(xué)習(xí)和泛化。
4.2 截至 2024 年中后期的大型語言模型 (LLM) 狀況
Model Name | Developer | Parameters | Availability and Access | Notable Features & Remarks |
GPT-4 | OpenAI | 1.5 Trillion | Not Open Source, API Access Only | Impressive performance on a variety of tasks can process images and text, maximum input length? 32,768 tokens |
GPT-3 | OpenAI | 175 billion | Not Open Source, API Access Only | Demonstrated few-shot and zero-shot learning capabilities. Performs text completion in natural language. |
BLOOM | BigScience | 176 billion | Downloadable Model, Hosted API Available | Multilingual LLM developed by global collaboration. Supports 13 programming languages. |
LaMDA | 173 billion | Not Open Source, No API or Download | Trained on dialogue could learn to talk about virtually anything | |
MT-NLG | Nvidia/Microsoft | 530 billion | API Access by application | Utilizes transformer-based Megatron architecture for various NLP tasks. |
LLaMA | Meta AI | 7B to 65B) | Downloadable by application | Intended to democratize AI by offering access to those in research, government, and academia. |
4.3 如何使用LLM
LLM通過多種方式使用,包括:
(1). 直接利用:只需使用預(yù)先訓(xùn)練的法學(xué)碩士進行文本生成或處理。 例如,使用 GPT-4 編寫博客文章,無需任何額外的微調(diào)。
(2). 微調(diào):針對特定任務(wù)調(diào)整預(yù)先訓(xùn)練的法學(xué)碩士,這種方法稱為遷移學(xué)習(xí)。一個例子是定制 T5 來生成特定行業(yè)文檔的摘要。
(3). 信息檢索:使用 LLM(例如 BERT 或 GPT)作為大型架構(gòu)的一部分來開發(fā)可以獲取信息和對信息進行分類的系統(tǒng)。
4.4 多頭注意力
然而,依賴單一的注意力機制可能會受到限制。 文本中的不同單詞或序列可以具有不同類型的相關(guān)性或關(guān)聯(lián)。 這就是多頭注意力的用武之地。多頭注意力不是一組注意力權(quán)重,而是采用多組注意力權(quán)重,使模型能夠捕獲輸入文本中更豐富的關(guān)系。 每個注意力“頭”可以關(guān)注輸入的不同部分或方面,它們的組合知識用于最終預(yù)測。
4.5 ChatGPT:最流行的生成式人工智能工具
自 2018 年 GPT 誕生以來,該模型基本上建立在 12 層、12 個注意力頭和 120 億個參數(shù)的基礎(chǔ)上,主要在名為 BookCorpus 的數(shù)據(jù)集上進行訓(xùn)練。 這是一個令人印象深刻的開始,讓我們得以一睹語言模型的未來。
GPT-2 于 2019 年推出,其層數(shù)和注意力頭增加了四倍。 值得注意的是,其參數(shù)數(shù)量猛增至 1.5 億。 這個增強版本的訓(xùn)練源自 WebText,這是一個包含來自各種 Reddit 鏈接的 40GB 文本的數(shù)據(jù)集。
3 年 2020 月推出的 GPT-96 有 96 層、175 個注意力頭和 3 億個海量參數(shù)。 GPT-570 的與眾不同之處在于其多樣化的訓(xùn)練數(shù)據(jù),包括 CommonCrawl、WebText、英語維基百科、書籍語料庫和其他來源,總計 XNUMX GB。
ChatGPT 錯綜復(fù)雜的運作方式仍然是一個嚴格保守的秘密。 然而,眾所周知,“根據(jù)人類反饋進行強化學(xué)習(xí)”(RLHF)的過程至關(guān)重要。 該技術(shù)源自早期的 ChatGPT 項目,有助于完善 GPT-3.5 模型,使其與書面指令更加一致。
ChatGPT 的培訓(xùn)包括三層方法:
(1). 監(jiān)督微調(diào):涉及策劃人工編寫的對話輸入和輸出,以完善底層 GPT-3.5 模型。
(2). 獎勵建模:人類根據(jù)質(zhì)量對各種模型輸出進行排名,幫助訓(xùn)練一個獎勵模型,該模型根據(jù)對話的上下文對每個輸出進行評分。
(3). 強化學(xué)習(xí):對話上下文作為基礎(chǔ)模型提出響應(yīng)的背景。 該響應(yīng)通過獎勵模型進行評估,并使用名為近端策略優(yōu)化 (PPO) 的算法來優(yōu)化該過程。
5. 擴散和多模態(tài)模型
雖然像VAE和GAN這樣的模型通過單次生成過程產(chǎn)生輸出,因此被鎖定在它們所產(chǎn)生的任何內(nèi)容中,但擴散模型引入了“迭代細化”的概念。通過這種方法,它們回顧并修正前幾步中的錯誤,并逐漸產(chǎn)生更加精細的結(jié)果。
擴散模型的核心在于“腐敗”和“細化”的藝術(shù)。在訓(xùn)練階段,典型圖像通過添加不同級別的噪聲逐漸被損壞。然后這個嘈雜的版本被輸入到模型中,模型嘗試對其進行“去噪”或“去腐敗”。經(jīng)過多輪這樣的過程,模型變得擅長于恢復(fù),理解微妙和顯著的像差。
5.1 Midjourney
從Midjourney生成新圖像的過程在訓(xùn)練后非常有趣。從完全隨機的輸入開始,它使用模型的預(yù)測不斷細化。目標是用最少的步驟獲得一張純凈的圖像。通過“噪聲計劃”控制腐敗的水平,這是一個控制不同階段應(yīng)用多少噪聲的機制。像“diffusers”這樣的庫中的調(diào)度器,根據(jù)既定算法決定這些嘈雜版本的性質(zhì)。
對于許多擴散模型來說,UNet是其架構(gòu)的重要支柱——一種為需要輸出與輸入空間維度相鏡像的任務(wù)量身定制的卷積神經(jīng)網(wǎng)絡(luò)。它由下采樣和上采樣層組成,這些層復(fù)雜地連接在一起,以保留對圖像相關(guān)輸出至關(guān)重要的高分辨率數(shù)據(jù)。
5.2 DALL-E 2
深入到生成模型的領(lǐng)域,OpenAI的DALL-E 2作為文本和視覺AI能力的融合,成為一個突出的例子。它采用了三層結(jié)構(gòu):
DALL-E 2展示了三重架構(gòu):
- .文本編碼器:它將文本提示轉(zhuǎn)換為潛在空間中的概念嵌入。這個模型不是從零開始。它依賴于OpenAI的對比語言-圖像預(yù)訓(xùn)練(CLIP)數(shù)據(jù)集作為其基礎(chǔ)。CLIP通過使用自然語言學(xué)習(xí)視覺概念,作為視覺和文本數(shù)據(jù)之間的橋梁。通過一種稱為對比學(xué)習(xí)機制,它識別并匹配圖像與其相應(yīng)的文本描述。
- . 先驗:從編碼器派生的文本嵌入隨后被轉(zhuǎn)換為圖像嵌入。DALL-E 2測試了自回歸和擴散方法來完成這項任務(wù),后者展示了更優(yōu)越的結(jié)果。像在變換器和PixelCNN中看到的自回歸模型,按順序生成輸出。另一方面,像DALL-E 2中使用的擴散模型,借助文本嵌入將隨機噪聲轉(zhuǎn)換為預(yù)測的圖像嵌入。
- . 解碼器:這個過程的高潮,這部分基于文本提示和先前階段的圖像嵌入生成最終的視覺輸出。DALL·E 2的解碼器在架構(gòu)上歸功于另一個模型,GLIDE,它也可以從文本提示中產(chǎn)生逼真的圖像。
6. 生成式人工智能的應(yīng)用
6.1 文本領(lǐng)域
從文本開始,生成式人工智能已經(jīng)因聊天機器人如ChatGPT而發(fā)生了根本性的改變。這些實體嚴重依賴自然語言處理(NLP)和大型語言模型(LLMs),它們被賦予執(zhí)行從代碼生成、語言翻譯到摘要和情感分析等一系列任務(wù)的能力。例如,ChatGPT已經(jīng)被廣泛采用,成為數(shù)百萬用戶的必備工具。這進一步被基于如GPT-4、PaLM和BLOOM等大型語言模型的對話式人工智能平臺所增強,這些平臺能夠輕松生成文本、協(xié)助編程,甚至提供數(shù)學(xué)推理。
從商業(yè)角度來看,這些模型正在變得非常寶貴。企業(yè)利用它們進行多種操作,包括風(fēng)險管理、庫存優(yōu)化和預(yù)測需求。一些著名的例子包括Bing AI、Google的BARD和ChatGPT API。
6.1 藝術(shù)
自從2022年DALL-E 2推出以來,圖像世界已經(jīng)經(jīng)歷了戲劇性的轉(zhuǎn)變。這項技術(shù)可以根據(jù)文本提示生成圖像,具有藝術(shù)和專業(yè)意義。例如,midjourney利用這項技術(shù)生成了令人印象深刻的逼真圖像。最近這篇文章在詳細指南中揭開了Midjourney的神秘面紗,闡明了該平臺及其提示工程的復(fù)雜性。此外,像Alpaca AI和Photoroom AI這樣的平臺利用生成式AI實現(xiàn)高級圖像編輯功能,例如背景移除、對象刪除甚至面部恢復(fù)。
6.3 視頻制作
視頻制作雖然在生成式人工智能領(lǐng)域仍處于初級階段,但正在展示有希望的進展。像Imagen Video、Meta Make A Video和Runway Gen-2這樣的平臺正在突破可能的界限,即使真正真實的輸出仍然在地平線上。這些模型為創(chuàng)建數(shù)字人類視頻提供了巨大的實用性,其中Synthesia和SuperCreator等應(yīng)用程序處于領(lǐng)先地位。值得注意的是,Tavus AI通過為個人觀眾提供個性化視頻來提供獨特的銷售主張,這對企業(yè)來說是一個福音。
6.4 代碼創(chuàng)建
編碼是我們數(shù)字世界中不可或缺的一個方面,它也受到了生成式人工智能的影響。雖然ChatGPT是一個受歡迎的工具,但還開發(fā)了其他幾種針對編碼目的的人工智能應(yīng)用程序。這些平臺,如GitHub Copilot、Alphacode和CodeComplete,充當編碼助手,甚至可以根據(jù)文本提示生成代碼。有趣的是這些工具的適應(yīng)性。Codex是GitHub Copilot背后的驅(qū)動力,可以根據(jù)個人的編碼風(fēng)格進行定制,凸顯了生成式AI的個性化潛力。
7.結(jié)論
將人類創(chuàng)造力與機器計算相結(jié)合,已經(jīng)成為一種寶貴的工具,平臺如ChatGPT和DALL-E 2正在不斷突破我們想象力的邊界。它們不僅能夠制作文本內(nèi)容,還能夠創(chuàng)造出視覺藝術(shù)作品,應(yīng)用范圍廣泛且多樣化。
然而,與任何技術(shù)一樣,其道德影響也是至關(guān)重要的。盡管生成式人工智能帶來了無限的創(chuàng)造潛力,但我們也必須負責(zé)任地使用它,并意識到其潛在的偏見和數(shù)據(jù)操控能力。
隨著像ChatGPT這樣的工具變得越來越易于使用,現(xiàn)在正是嘗試和實驗的最佳時機。無論你是藝術(shù)家、程序員還是技術(shù)愛好者,生成式人工智能領(lǐng)域都充滿了等待被探索的可能性。