做網(wǎng)站建設(shè)優(yōu)化的電話話術(shù)semester
在當(dāng)前人工智能取得突破性進(jìn)展的時(shí)代,從單一輸入圖像生成全景場(chǎng)景仍是一項(xiàng)關(guān)鍵挑戰(zhàn)。大多數(shù)現(xiàn)有方法都使用基于擴(kuò)散的迭代或同步多視角內(nèi)繪。然而,由于缺乏全局場(chǎng)景布局先驗(yàn),導(dǎo)致輸出結(jié)果存在重復(fù)對(duì)象(如臥室中的多張床),或者每個(gè)視圖都需要耗時(shí)的人工文本輸入。我們提出的 L-MAGIC 是一種新型方法,它利用大型語(yǔ)言模型進(jìn)行引導(dǎo),同時(shí)擴(kuò)散 360 度全景場(chǎng)景的多個(gè)連貫視圖。L-MAGIC 利用預(yù)先訓(xùn)練好的擴(kuò)散和語(yǔ)言模型,無需微調(diào),確保零誤差性能。超分辨率和多視圖融合技術(shù)進(jìn)一步提高了輸出質(zhì)量。廣泛的實(shí)驗(yàn)證明,與相關(guān)研究相比,所生成的全景場(chǎng)景具有更好的場(chǎng)景布局和透視圖渲染質(zhì)量,在人類評(píng)估中的優(yōu)越性大于 70%。結(jié)合條件擴(kuò)散模型,L-MAGIC 可以接受各種輸入模式,包括但不限于文本、深度圖、草圖和彩色腳本。通過深度估計(jì),還能生成三維點(diǎn)云,并利用攝像機(jī)的流體運(yùn)動(dòng)進(jìn)行動(dòng)態(tài)場(chǎng)景探索。
Pipeline
論文:https://arxiv.org/pdf/2406.01843
項(xiàng)目:https://zhipengcai.github.io/MMPano/
Github:https://github.com/IntelLabs/MMPano
方法
L-MAGIC 是一個(gè)結(jié)合了語(yǔ)言模型及擴(kuò)散模型的場(chǎng)景生成框架。L-MAGIC 通過自然圖像連接各類不同模態(tài)的輸入。當(dāng)輸入不是一張自然圖像時(shí),L-MAGIC 使用成熟的條件擴(kuò)散模型如 ControlNet 從各種模態(tài)的輸入(文字,手繪草圖,深度圖等等)生成一張自然圖像。
在獲得自然圖像之后,L-MAGIC 通過 iterative warping and inpainting 來生成 360 度場(chǎng)景的多個(gè)視角。在每一個(gè) iteration 中,warping step 將已生成的多視角 warp 到一個(gè)新的視角,實(shí)例中的黑色部分代表新視角中的缺失像素。Inpainting step 使用基于擴(kuò)散的圖像 inpainting 模型(Stable Diffusion v2)生成缺失像素。為了使圖像擴(kuò)散模型能夠生成多樣的全局場(chǎng)景結(jié)構(gòu),L-MAGIC 使用語(yǔ)言模型控制擴(kuò)散模型在每個(gè)視角需要生成的場(chǎng)景內(nèi)容。
除了生成 360 度場(chǎng)景的全景圖,利用深度估計(jì)模型,L-MAGIC 還能夠生成包含相機(jī)旋轉(zhuǎn)及平移的沉浸式視頻,以及場(chǎng)景的三維點(diǎn)云。由于無需微調(diào),L-MAGIC 能夠有效地保持語(yǔ)言及擴(kuò)散模型的泛化性,實(shí)現(xiàn)多樣化場(chǎng)景的高質(zhì)量生成。
L-MAGIC 的核心是使用語(yǔ)言模型全自動(dòng)地控制擴(kuò)散模型。
使用 ChatGPT 作為 LLM 控制器可以獲得最佳性能,這需要您申請(qǐng) OpenAI API 密鑰。
如果您所在地區(qū)無法訪問 ChatGPT API,我們還提供了使用免費(fèi)開源 LLM 控制器(如 Llama3)的方法。有關(guān)如何啟用的說明,請(qǐng)參閱下文。您可能需要設(shè)置 HF_TOKEN 或傳遞 huggingface 令牌。你也可以自由貢獻(xiàn)代碼,啟用其他 LLM。
python3 mm_pano/mmpano.py \--init_image exp/example/0.png \--output_folder exp/outputs \--dtype bfloat16 --device hpu \--llm_model_name gpt-4 \--api_key <your ChatGPT API key> \--save_pano_img \ # To save the generated panorama picture--gen_video # To generate and save the video
詳情請(qǐng)看github