動態(tài)商務網(wǎng)站開發(fā)與管理電商培訓視頻教程
FontDiffuser: One-Shot Font Generation via Denoising Diffusion with Multi-Scale Content Aggregation and Style Contrastive Learning
存在的問題
現(xiàn)有的字體生成方法雖然取得了令人滿意的性能,但在處理復雜字和風格變化較大的字符(尤其是中文字符)時,仍會出現(xiàn)嚴重的筆畫缺失、偽影、模糊、結(jié)構(gòu)布局錯誤和風格不一致等問題,如上圖4所示。
原因分析
-
大多數(shù)方法都采用基于 GAN 的框架,由于其對抗訓練的性質(zhì),可能會出現(xiàn)訓練不穩(wěn)定的問題。
-
這些方法大多只通過單一尺度的高維特征來感知內(nèi)容信息,而忽略了對保留源內(nèi)容(尤其是復雜字符)的細粒度細節(jié)。
-
許多方法利用先驗知識來幫助字體生成,例如字符的筆畫或部件組成;然而,對于復雜的字符來說,獲取這些細粒度信息的成本很高;
-
在過去的方法中,目標風格通常由一個簡單的分類器或判別器來進行特征表示學習,這種分類器或判別器很難學習到合適的風格,在一定程度上阻礙了在風格變化較大時的風格轉(zhuǎn)換。
圖1 在內(nèi)容編碼器中不同尺度的特征圖
VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection
將視覺語言模型應用于弱監(jiān)督視頻異常檢測
「簡述:」VadCLIP是利用對比語言-圖像預訓練(CLIP)模型進行弱監(jiān)督視頻異常檢測的新方法。它通過直接利用凍結(jié)的CLIP模型,無需預訓練和微調(diào),簡化了模型適應過程。與現(xiàn)有方法不同,VadCLIP充分利用CLIP在視覺和語言之間的精細關(guān)聯(lián),采用雙分支結(jié)構(gòu)。一個分支進行粗粒度二分類,另一個分支則充分利用語言-圖像對齊進行細粒度分析。通過雙分支結(jié)構(gòu),VadCLIP實現(xiàn)了從CLIP到WSVAD任務的遷移學習,實現(xiàn)了粗粒度和細粒度的視頻異常檢測。