當(dāng)前位置：首頁(yè) > news >正文

做網(wǎng)站建設(shè)優(yōu)化的電話話術(shù)semester

news 2025/7/7 13:07:14

做網(wǎng)站建設(shè)優(yōu)化的電話話術(shù),semester,創(chuàng)建吃的網(wǎng)站怎么做,做企業(yè)網(wǎng)站需要準(zhǔn)備什么資料在當(dāng)前人工智能取得突破性進(jìn)展的時(shí)代，從單一輸入圖像生成全景場(chǎng)景仍是一項(xiàng)關(guān)鍵挑戰(zhàn)。大多數(shù)現(xiàn)有方法都使用基于擴(kuò)散的迭代或同步多視角內(nèi)繪。然而，由于缺乏全局場(chǎng)景布局先驗(yàn)，導(dǎo)致輸出結(jié)果存在重復(fù)對(duì)象（如臥室中的多張床&#xff0…

在當(dāng)前人工智能取得突破性進(jìn)展的時(shí)代，從單一輸入圖像生成全景場(chǎng)景仍是一項(xiàng)關(guān)鍵挑戰(zhàn)。大多數(shù)現(xiàn)有方法都使用基于擴(kuò)散的迭代或同步多視角內(nèi)繪。然而，由于缺乏全局場(chǎng)景布局先驗(yàn)，導(dǎo)致輸出結(jié)果存在重復(fù)對(duì)象（如臥室中的多張床），或者每個(gè)視圖都需要耗時(shí)的人工文本輸入。我們提出的 L-MAGIC 是一種新型方法，它利用大型語(yǔ)言模型進(jìn)行引導(dǎo)，同時(shí)擴(kuò)散 360 度全景場(chǎng)景的多個(gè)連貫視圖。L-MAGIC 利用預(yù)先訓(xùn)練好的擴(kuò)散和語(yǔ)言模型，無需微調(diào)，確保零誤差性能。超分辨率和多視圖融合技術(shù)進(jìn)一步提高了輸出質(zhì)量。廣泛的實(shí)驗(yàn)證明，與相關(guān)研究相比，所生成的全景場(chǎng)景具有更好的場(chǎng)景布局和透視圖渲染質(zhì)量，在人類評(píng)估中的優(yōu)越性大于 70%。結(jié)合條件擴(kuò)散模型，L-MAGIC 可以接受各種輸入模式，包括但不限于文本、深度圖、草圖和彩色腳本。通過深度估計(jì)，還能生成三維點(diǎn)云，并利用攝像機(jī)的流體運(yùn)動(dòng)進(jìn)行動(dòng)態(tài)場(chǎng)景探索。
在這里插入圖片描述

Pipeline

在這里插入圖片描述
論文：https://arxiv.org/pdf/2406.01843

項(xiàng)目：https://zhipengcai.github.io/MMPano/

Github：https://github.com/IntelLabs/MMPano

在這里插入圖片描述

方法

L-MAGIC 是一個(gè)結(jié)合了語(yǔ)言模型及擴(kuò)散模型的場(chǎng)景生成框架。L-MAGIC 通過自然圖像連接各類不同模態(tài)的輸入。當(dāng)輸入不是一張自然圖像時(shí)，L-MAGIC 使用成熟的條件擴(kuò)散模型如 ControlNet 從各種模態(tài)的輸入（文字，手繪草圖，深度圖等等）生成一張自然圖像。

在獲得自然圖像之后，L-MAGIC 通過 iterative warping and inpainting 來生成 360 度場(chǎng)景的多個(gè)視角。在每一個(gè) iteration 中，warping step 將已生成的多視角 warp 到一個(gè)新的視角，實(shí)例中的黑色部分代表新視角中的缺失像素。Inpainting step 使用基于擴(kuò)散的圖像 inpainting 模型（Stable Diffusion v2）生成缺失像素。為了使圖像擴(kuò)散模型能夠生成多樣的全局場(chǎng)景結(jié)構(gòu)，L-MAGIC 使用語(yǔ)言模型控制擴(kuò)散模型在每個(gè)視角需要生成的場(chǎng)景內(nèi)容。

除了生成 360 度場(chǎng)景的全景圖，利用深度估計(jì)模型，L-MAGIC 還能夠生成包含相機(jī)旋轉(zhuǎn)及平移的沉浸式視頻，以及場(chǎng)景的三維點(diǎn)云。由于無需微調(diào)，L-MAGIC 能夠有效地保持語(yǔ)言及擴(kuò)散模型的泛化性，實(shí)現(xiàn)多樣化場(chǎng)景的高質(zhì)量生成。

L-MAGIC 的核心是使用語(yǔ)言模型全自動(dòng)地控制擴(kuò)散模型。

使用 ChatGPT 作為 LLM 控制器可以獲得最佳性能，這需要您申請(qǐng) OpenAI API 密鑰。

如果您所在地區(qū)無法訪問 ChatGPT API，我們還提供了使用免費(fèi)開源 LLM 控制器（如 Llama3）的方法。有關(guān)如何啟用的說明，請(qǐng)參閱下文。您可能需要設(shè)置 HF_TOKEN 或傳遞 huggingface 令牌。你也可以自由貢獻(xiàn)代碼，啟用其他 LLM。

python3 mm_pano/mmpano.py \--init_image exp/example/0.png \--output_folder exp/outputs \--dtype bfloat16 --device hpu \--llm_model_name gpt-4 \--api_key <your ChatGPT API key> \--save_pano_img \  # To save the generated panorama picture--gen_video  # To generate and save the video

詳情請(qǐng)看github

在這里插入圖片描述