杭州建站價(jià)格成功品牌策劃案例
本文介紹了AIGC相關(guān)領(lǐng)域的爆發(fā)式增長(zhǎng),并探討了淘寶秀秀(AI買(mǎi)家秀)的設(shè)計(jì)思路和技術(shù)方案。文章涵蓋了圖像生成、仿真形象生成和換背景方案,以及模型流程串聯(lián)等關(guān)鍵技術(shù)。
文章還介紹了淘淘秀的使用流程和遇到的問(wèn)題及處理方法。最后,文章展望了未來(lái)AIGC的發(fā)展趨勢(shì),包括模型使用體驗(yàn)優(yōu)化、自動(dòng)化素材生成和產(chǎn)品形態(tài)探索等方向。
引言
AIGC相關(guān)領(lǐng)域爆發(fā)式增長(zhǎng),在圖像式AI領(lǐng)域出現(xiàn)Midjourney、SD等專(zhuān)業(yè)的工具,也推出了妙鴨相機(jī)、美圖秀秀等生成虛擬形象的APP。
當(dāng)前淘寶具有的用戶(hù)群和商家,可以考慮設(shè)計(jì)一款結(jié)合用戶(hù)和商家AI工具,以AI生成用戶(hù)商品代言為主題,幫助商家提高商品展示的吸引力,同時(shí)通過(guò)個(gè)性化和創(chuàng)新的虛擬形象增強(qiáng)用戶(hù)體驗(yàn)。
在這個(gè)背景下,產(chǎn)品同學(xué)設(shè)計(jì)了一款讓用戶(hù)具有代入感的生成產(chǎn)品,淘淘秀(也叫AI買(mǎi)家秀),讓用戶(hù)上傳通過(guò)照片建立像我但比我好看的商品代言,也會(huì)結(jié)合一些互動(dòng)玩法,引發(fā)用戶(hù)創(chuàng)作興趣提升業(yè)務(wù)的指標(biāo)。
關(guān)鍵詞:圖像類(lèi)AI創(chuàng)新應(yīng)用、用戶(hù)輕松創(chuàng)作、內(nèi)容分享、結(jié)合商家品牌。
技術(shù)交流群
建了技術(shù)答疑、交流群!想要進(jìn)交流群、資料的同學(xué),可以直接加微信號(hào):mlc2060。加的時(shí)候備注一下:研究方向 +學(xué)校/公司+CSDN,即可。然后就可以拉你進(jìn)群了。
前沿技術(shù)資訊、算法交流、求職內(nèi)推、算法競(jìng)賽、面試交流(校招、社招、實(shí)習(xí))等、與 10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企開(kāi)發(fā)者互動(dòng)交流~
方式①、添加微信號(hào):mlc2060,備注:技術(shù)交流
方式②、微信搜索公眾號(hào):機(jī)器學(xué)習(xí)社區(qū),后臺(tái)回復(fù):技術(shù)交流
技術(shù)調(diào)研
整個(gè)產(chǎn)品會(huì)更復(fù)雜一些,這里我們主要探討AIGC相關(guān)的一些技術(shù)能力,在買(mǎi)家秀的產(chǎn)品設(shè)計(jì)下,在AIGC的相關(guān)能力依賴(lài)上,有如下的訴求:
-
生成優(yōu)質(zhì)素材模板,用戶(hù)要代言的商品素材,以便達(dá)到更好的效果;生成
-
結(jié)合素材模板和用戶(hù)圖片,生成用戶(hù)相關(guān)圖片;用戶(hù)形象生成
-
在用戶(hù)圖片的基礎(chǔ)上,考慮進(jìn)行背景風(fēng)格替換,提升豐富性( 策劃中,還未上線(xiàn),也寫(xiě)一下 );背景生成替換
相關(guān)的產(chǎn)品鏈路,這個(gè)是比較早期的,在調(diào)研之圖中的一些方案有做一些調(diào)整,但是大致流程接近:
-
生成素材 -> 配置模板 -> 生成用戶(hù)代言圖 -> 進(jìn)行貼圖 ;
-
同時(shí)在考慮一些視頻類(lèi)的生成。
圖像生成方案對(duì)比
要求是**(真人 + 場(chǎng)景 + 商品類(lèi)目)**的情況下,生成一些比較好的素材圖片案例,給到用戶(hù)使用, 中間使用了幾個(gè)模型。
現(xiàn)在從事后總結(jié)的角度,我覺(jué)得對(duì)這些模型做一些對(duì)比,考慮幾個(gè)維度:
-
準(zhǔn)確性(易用性): 模型生成的圖像與提示詞描述的一致性
-
可擴(kuò)展性;API接入與自動(dòng)化:模型是否支持API接入,支持API的話(huà),跑任務(wù)解放運(yùn)營(yíng)。影響到速度與效率。
-
成功率: 大約多少?gòu)垐D片,可以有一張可以用的照片, 成功率到一個(gè)可以接受的范圍。
使用提示詞如下:
An ultra-realistic photograph captured with the aesthetics of an iPhone camera, portraying a modern Chinese woman in a distinctive location in Shanghai. The woman is sitting on a wooden bench, the backdrop is softly blurred showcasing the city’s unique architecture. The park is filled with lush greenery and vibrant flowers, exuding tranquility. Soft sunlight bathes the woman’s visage and hair, creating a subtle and natural glow. The image, shot in high resolution with a 750:1200 aspect ratio, exudes the character’s authentic charm and elegance.
不同模型的效果:
模型:Midjourney
特性:易用性高;無(wú)可擴(kuò)展性;成功率高達(dá)50%;
優(yōu)點(diǎn):生成質(zhì)量高,真人效果好,可以生成復(fù)雜的圖像。
缺點(diǎn):訪(fǎng)問(wèn)限制;沒(méi)有API,不能直接和系統(tǒng)打通。;速率限制,單個(gè)用戶(hù)一分鐘一般只能生成一次。
效果圖:
BadCase:
基本不太有,就是風(fēng)格問(wèn)題、角度問(wèn)題等。
模型:通義萬(wàn)相
特性:易用性高;可擴(kuò)展性高;成功率中等為10~50%;
優(yōu)點(diǎn):內(nèi)部產(chǎn)品;支持API接入;使用起來(lái)方便
缺點(diǎn):真人場(chǎng)景下效果略微差一點(diǎn),但是不是不能接受;算下來(lái)更貴一點(diǎn),單張照片官網(wǎng)標(biāo)記價(jià)格 0.16元一張。
效果圖:
BadCase:
有時(shí)候臉會(huì)變形
模型:Stable Diffusion
特性:易用性低;可擴(kuò)展性高;成功率低約為1%;
優(yōu)點(diǎn):開(kāi)源;允許定制模型和自己部署;經(jīng)過(guò)調(diào)整后效果也可以達(dá)到非常好的地步。
缺點(diǎn):使用難度大;提示詞難調(diào),好的效果需要花較多的時(shí)間;只能生成某一種類(lèi)型的,一旦結(jié)合類(lèi)目或者場(chǎng)景就會(huì)有比較大的問(wèn)題。
效果圖:
其實(shí)效果也不太行。
BadCase:
出現(xiàn)失敗的概率還是比較高的。
模型:DALL·E
特性:DALLE3真人效果當(dāng)前不太行,暫時(shí)忽略。DALLE2還原度有點(diǎn)差。
優(yōu)點(diǎn):支持API接入;能生成高分辨率的圖像;提示詞的還原度比較高
缺點(diǎn):訪(fǎng)問(wèn)限制;在真人的效果上還是差點(diǎn)意思。
效果圖:
BadCase:在我們的場(chǎng)景下,在真實(shí)人物上上感覺(jué)都是bad case。
模型:堆友
特性:風(fēng)格、尺寸、生成速度,和上面沒(méi)有太明顯的優(yōu)勢(shì)。
優(yōu)點(diǎn):內(nèi)部產(chǎn)品;效果還可以,有一定的還原度
缺點(diǎn):沒(méi)有聯(lián)系對(duì)應(yīng)團(tuán)隊(duì),官網(wǎng)上沒(méi)有API;在結(jié)合具體類(lèi)目的時(shí)候,也會(huì)變形;風(fēng)格有限;尺寸有限
效果圖:
整體結(jié)論:
-
Midjourney在生成效果上表現(xiàn)最為出色,但其過(guò)程需要持續(xù)的人工參與,意味著較高的時(shí)間成本。
-
在萬(wàn)相和Stable Diffusion效果對(duì)比,萬(wàn)相效果更好,如果要做規(guī)模化考慮使用下萬(wàn)相;
-
SD在通用場(chǎng)景下效果比較差,但是SD模型提供了全面的定制能力。
基于各自的特色,概括如下:
仿真形象生成方案對(duì)比
如何讓生成的圖片要包含對(duì)應(yīng)的人物特征,讓用戶(hù)的代入感更強(qiáng)。我們的算法同學(xué)調(diào)研不同的方案,數(shù)字分身以及換臉。大概效果如下:
考慮到資源問(wèn)題、以及背后的素材質(zhì)量問(wèn)題,走換臉的鏈路,用的也是主流的Roop模型。
? 換背景方案 (測(cè)試中)
當(dāng)前可用的就只有SD的Inpaiting方案,把人物扣出來(lái),使用SemanticGuidedHumanMatting,然后進(jìn)行背景的補(bǔ)充。因?yàn)楸澈蟮娘L(fēng)格是生成的,提示詞未必能涵蓋到所有的場(chǎng)景,對(duì)輸入的圖片也要有一定的限制。結(jié)果上存在一定的不可控性,
目前效果上還在探索,看以什么樣的形態(tài)更合適。
一些限制:
-
人不能占空間太小; 背景發(fā)揮的空間不要太大。
-
人手里不要拿東西,人物不要有一些物品依賴(lài),比如沙發(fā),坐著之類(lèi)的,也會(huì)生成比較奇怪的內(nèi)容。
模型流程串聯(lián)**
可以看一下萬(wàn)相在一些場(chǎng)景上從生成到最終的效果
希望場(chǎng)景:行李箱 - 男- 機(jī)場(chǎng)
調(diào)整提示詞:An Instagram-style portrait that serves as a luggage advertisement featuring a 20-year-old Chinese boy. He’s sitting inside an airport with a suitcase next to him, holding a cup of coffee. The background is the airport, creating a high-end atmosphere. You can see the boy’s complete face and facial features. He’s posing dynamically and relaxed, creating a sophisticated composition, shot using a film camera, 8k
用通義萬(wàn)相隨機(jī)生成四張照片。(提示詞好的話(huà),生成的成功率感覺(jué)還可以,效果大家可以評(píng)估下到底如何)
淘淘秀AIGC的使用
-
在淘寶客戶(hù)端搜索【淘淘秀】
-
點(diǎn)擊【淘淘秀】進(jìn)入到對(duì)應(yīng)的小程序。
-
開(kāi)始我的代言,上傳自己的照片
-
生成用戶(hù)的代言照片;
-
可以選擇自己喜歡的代言照片發(fā)布到廣場(chǎng),也可以選擇私密。
問(wèn)題與處理
在應(yīng)用AIGC時(shí)遇到的一些問(wèn)題與處理;
問(wèn)題1:模型在特定場(chǎng)景下生成效果不佳
方案: 引入外部的Midjourney,人工生產(chǎn)與導(dǎo)入。一些內(nèi)部模型可以生成的,選擇內(nèi)部模型批量生成組合多個(gè)模型使用。
問(wèn)題2:線(xiàn)上生成效果不穩(wěn)定,資源消耗大。
方案: 離線(xiàn)生成,人工篩選。預(yù)先生成內(nèi)容以減少資源消耗,并提高內(nèi)容質(zhì)量的一致性。
問(wèn)題3:每部署一個(gè)模型,都要寫(xiě)一套TPP;
方案: 利用vipserver進(jìn)行模型匹配和調(diào)用,寫(xiě)一套模型調(diào)用的網(wǎng)關(guān),結(jié)合限流和隊(duì)列技術(shù),平衡系統(tǒng)負(fù)載,提高部署效率。最開(kāi)始以為只有TPP才能訪(fǎng)問(wèn)到模型部署的機(jī)器,后面發(fā)現(xiàn)知道IP之后,應(yīng)用也可以直接調(diào)用模型的服務(wù),就省去TPP這一層了。
問(wèn)題4: 生成的內(nèi)容后如何使用。
方案: 開(kāi)發(fā)一些內(nèi)容的配套工具,內(nèi)容的導(dǎo)出,內(nèi)容的檢索(圖片檢索),內(nèi)容標(biāo)注,以滿(mǎn)足不同場(chǎng)景需求。
展望
在第一階段,大約一個(gè)月的時(shí)間主要關(guān)注于開(kāi)發(fā)和上線(xiàn),未來(lái)還有一些可嘗試的計(jì)劃和想法:
-
優(yōu)化模型使用體驗(yàn):后臺(tái)體驗(yàn)和用戶(hù)體驗(yàn),當(dāng)前只是確保具備對(duì)應(yīng)的功能,但如何讓管理人員介入進(jìn)來(lái)更好的指導(dǎo)模型生產(chǎn)素材,還有很多體驗(yàn)優(yōu)化可以做。 另外再用戶(hù)側(cè)的模型生成上,保證效果更好和更穩(wěn)定。
-
自動(dòng)化素材生成:看能否設(shè)定內(nèi)容目標(biāo)后,能利用模型自動(dòng)化地生成內(nèi)容,提升內(nèi)容的規(guī)模和豐富性。
-
產(chǎn)品形態(tài)探索:從圖片到視頻,從圖片到故事,或者配上音樂(lè)等等,有些形態(tài)看看是否要嘗試,探索更有趣、更吸引人的產(chǎn)品形態(tài)。
跳出產(chǎn)品之外,一些預(yù)感即將會(huì)發(fā)生的,隨著模型的性能以及效果變好之后,以后對(duì)專(zhuān)業(yè)的內(nèi)容創(chuàng)作者依賴(lài)越來(lái)少,內(nèi)容的生產(chǎn)效率越來(lái)越高?;ヂ?lián)網(wǎng)上將會(huì)有越來(lái)越多的AI內(nèi)容,針對(duì)每個(gè)人的個(gè)性化素材,解放人們的想象力…
當(dāng)然內(nèi)容過(guò)度也會(huì)有一定的影響,但最后肯定還是往好的方向發(fā)展。
考慮到越來(lái)越多的AI創(chuàng)新產(chǎn)品出現(xiàn),本文所涉及到的AIGC能力我們?cè)谶@次的開(kāi)發(fā)中都沉淀到一個(gè)AI的平臺(tái),提供一些模型能力的復(fù)用, 對(duì)類(lèi)似能力有興趣的業(yè)務(wù),可以探討交流下,一起探索下更多AI的可能性。