中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

wordpress 基本模版淘寶seo

wordpress 基本模版,淘寶seo,做平面那個網(wǎng)站素材好,html點(diǎn)餐網(wǎng)頁簡單代碼1.有哪些方法能提升CNN模型的泛化能力 采集更多數(shù)據(jù):數(shù)據(jù)決定算法的上限。 優(yōu)化數(shù)據(jù)分布:數(shù)據(jù)類別均衡。 選用合適的目標(biāo)函數(shù)。 設(shè)計(jì)合適的網(wǎng)絡(luò)結(jié)構(gòu)。 數(shù)據(jù)增強(qiáng)。 權(quán)值正則化。 使用合適的優(yōu)化器等。 2.BN層面試高頻問題大匯總 BN層解決了什么問…

1.有哪些方法能提升CNN模型的泛化能力

  1. 采集更多數(shù)據(jù):數(shù)據(jù)決定算法的上限。

  2. 優(yōu)化數(shù)據(jù)分布:數(shù)據(jù)類別均衡。

  3. 選用合適的目標(biāo)函數(shù)。

  4. 設(shè)計(jì)合適的網(wǎng)絡(luò)結(jié)構(gòu)。

  5. 數(shù)據(jù)增強(qiáng)。

  6. 權(quán)值正則化。

  7. 使用合適的優(yōu)化器等。

2.BN層面試高頻問題大匯總

BN層解決了什么問題?

統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的一個經(jīng)典假設(shè)是“源空間(source domain)和目標(biāo)空間(target domain)的數(shù)據(jù)分布(distribution)是一致的”。如果不一致,那么就出現(xiàn)了新的機(jī)器學(xué)習(xí)問題,如transfer learning/domain adaptation等。而covariate shift就是分布不一致假設(shè)之下的一個分支問題,它是指源空間和目標(biāo)空間的條件概率是一致的,但是其邊緣概率不同。對于神經(jīng)網(wǎng)絡(luò)的各層輸出,由于它們經(jīng)過了層內(nèi)卷積操作,其分布顯然與各層對應(yīng)的輸入信號分布不同,而且差異會隨著網(wǎng)絡(luò)深度增大而增大,但是它們所能代表的label仍然是不變的,這便符合了covariate shift的定義。

因?yàn)樯窠?jīng)網(wǎng)絡(luò)在做非線性變換前的激活輸入值隨著網(wǎng)絡(luò)深度加深,其分布逐漸發(fā)生偏移或者變動(即上述的covariate shift)。之所以訓(xùn)練收斂慢,一般是整體分布逐漸往非線性函數(shù)的取值區(qū)間的上下限兩端靠近(比如sigmoid),所以這導(dǎo)致反向傳播時低層神經(jīng)網(wǎng)絡(luò)的梯度消失,這是訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)收斂越來越慢的本質(zhì)原因。而BN就是通過一定的正則化手段,把每層神經(jīng)網(wǎng)絡(luò)任意神經(jīng)元這個輸入值的分布強(qiáng)行拉回到均值為0方差為1的標(biāo)準(zhǔn)正態(tài)分布,避免因?yàn)榧せ詈瘮?shù)導(dǎo)致的梯度彌散問題。所以與其說BN的作用是緩解covariate shift,也可以說BN可緩解梯度彌散問題。

BN的公式

其中scale和shift是兩個可學(xué)的參數(shù),因?yàn)闇p去均值除方差未必是最好的分布。比如數(shù)據(jù)本身就很不對稱,或者激活函數(shù)未必是對方差為1的數(shù)據(jù)有最好的效果。所以要加入縮放及平移變量來完善數(shù)據(jù)分布以達(dá)到比較好的效果。

BN層訓(xùn)練和測試的不同

在訓(xùn)練階段,BN層是對每個batch的訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,即用每一批數(shù)據(jù)的均值和方差。(每一批數(shù)據(jù)的方差和標(biāo)準(zhǔn)差不同)

而在測試階段,我們一般只輸入一個測試樣本,并沒有batch的概念。因此這個時候用的均值和方差是整個數(shù)據(jù)集訓(xùn)練后的均值和方差,可以通過滑動平均法求得:

上面式子簡單理解就是:對于均值來說直接計(jì)算所有batch u u u 值的平均值;然后對于標(biāo)準(zhǔn)偏差采用每個batch σ B σ_B σB? 的無偏估計(jì)。

在測試時,BN使用的公式是:

BN訓(xùn)練時為什么不用整個訓(xùn)練集的均值和方差?

因?yàn)橛谜麄€訓(xùn)練集的均值和方差容易過擬合,對于BN,其實(shí)就是對每一batch數(shù)據(jù)標(biāo)準(zhǔn)化到一個相同的分布,而不同batch數(shù)據(jù)的均值和方差會有一定的差別,而不是固定的值,這個差別能夠增加模型的魯棒性,也會在一定程度上減少過擬合。

BN層用在哪里?

在CNN中,BN層應(yīng)該用在非線性激活函數(shù)前面。由于神經(jīng)網(wǎng)絡(luò)隱藏層的輸入是上一層非線性激活函數(shù)的輸出,在訓(xùn)練初期其分布還在劇烈改變,此時約束其一階矩和二階矩?zé)o法很好地緩解 Covariate Shift;而BN的分布更接近正態(tài)分布,限制其一階矩和二階矩能使輸入到激活函數(shù)的值分布更加穩(wěn)定。

BN層的參數(shù)量

我們知道 γ γ γ β β β 是需要學(xué)習(xí)的參數(shù),而BN的本質(zhì)就是利用優(yōu)化學(xué)習(xí)改變方差和均值的大小。在CNN中,因?yàn)榫W(wǎng)絡(luò)的特征是對應(yīng)到一整張?zhí)卣鲌D上的,所以做BN的時候也是以特征圖為單位而不是按照各個維度。比如在某一層,特征圖數(shù)量為 c c c ,那么做BN的參數(shù)量為 c ? 2 c * 2 c?2 。

BN的優(yōu)缺點(diǎn)

優(yōu)點(diǎn):

  1. 可以選擇較大的初始學(xué)習(xí)率。因?yàn)檫@個算法收斂很快。

  2. 可以不用dropout,L2正則化。

  3. 不需要使用局部響應(yīng)歸一化。

  4. 可以把數(shù)據(jù)集徹底打亂。

  5. 模型更加健壯。

缺點(diǎn):

  1. Batch Normalization非常依賴Batch的大小,當(dāng)Batch值很小時,計(jì)算的均值和方差不穩(wěn)定。

  2. 所以BN不適用于以下幾個場景:小Batch,RNN等。

3.Instance Normalization的作用

Instance Normalization(IN)和Batch Normalization(BN)一樣,也是Normalization的一種方法,只是IN是作用于單張圖片,而BN作用于一個Batch。

BN對Batch中的每一張圖片的同一個通道一起進(jìn)行Normalization操作,而IN是指單張圖片的單個通道單獨(dú)進(jìn)行Normalization操作。如下圖所示,其中C代表通道數(shù),N代表圖片數(shù)量(Batch)。

IN適用于生成模型中,比如圖片風(fēng)格遷移。因?yàn)閳D片生成的結(jié)果主要依賴于某個圖像實(shí)例,所以對整個Batch進(jìn)行Normalization操作并不適合圖像風(fēng)格化的任務(wù),在風(fēng)格遷移中使用IN不僅可以加速模型收斂,并且可以保持每個圖像實(shí)例之間的獨(dú)立性。

下面是IN的公式:

其中t代表圖片的index,i代表的是feature map的index。

4.有哪些提高GAN訓(xùn)練穩(wěn)定性的Tricks

1.輸入Normalize

  1. 將輸入圖片Normalize到 [ ? 1 , 1 ] [-1,1] [?11] 之間。
  2. 生成器最后一層的輸出使用Tanh激活函數(shù)。

Normalize非常重要,沒有處理過的圖片是沒辦法收斂的。圖片Normalize一種簡單的方法是(images-127.5)/127.5,然后送到判別器去訓(xùn)練。同理生成的圖片也要經(jīng)過判別器,即生成器的輸出也是-1到1之間,所以使用Tanh激活函數(shù)更加合適。

2.替換原始的GAN損失函數(shù)和標(biāo)簽反轉(zhuǎn)

  1. 原始GAN損失函數(shù)會出現(xiàn)訓(xùn)練早期梯度消失和Mode collapse(模型崩潰)問題。可以使用Earth Mover distance(推土機(jī)距離)來優(yōu)化。

  2. 實(shí)際工程中用反轉(zhuǎn)標(biāo)簽來訓(xùn)練生成器更加方便,即把生成的圖片當(dāng)成real的標(biāo)簽來訓(xùn)練,把真實(shí)的圖片當(dāng)成fake來訓(xùn)練。

3.使用具有球形結(jié)構(gòu)的隨機(jī)噪聲 $Z$ 作為輸入

  1. 不要使用均勻分布進(jìn)行采樣

  1. 使用高斯分布進(jìn)行采樣

4.使用BatchNorm

  1. 一個mini-batch中必須只有real數(shù)據(jù)或者fake數(shù)據(jù),不要把他們混在一起訓(xùn)練。
  2. 如果能用BatchNorm就用BatchNorm,如果不能用則用instance normalization。

5.避免使用ReLU,MaxPool等操作引入稀疏梯度

  1. GAN的穩(wěn)定性會因?yàn)橐胂∈杼荻仁艿胶艽笥绊憽?/li>
  2. 最好使用類LeakyReLU的激活函數(shù)。(D和G中都使用)
  3. 對于下采樣,最好使用:Average Pooling或者卷積+stride。
  4. 對于上采樣,最好使用:PixelShuffle或者轉(zhuǎn)置卷積+stride。

最好去掉整個Pooling邏輯,因?yàn)槭褂肞ooling會損失信息,這對于GAN訓(xùn)練沒有益處。

6.使用Soft和Noisy的標(biāo)簽

  1. Soft Label,即使用 [ 0.7 ? 1.2 ] [0.7-1.2] [0.7?1.2] [ 0 ? 0.3 ] [0-0.3] [0?0.3] 兩個區(qū)間的隨機(jī)值來代替正樣本和負(fù)樣本的Hard Label。
  2. 可以在訓(xùn)練時對標(biāo)簽加一些噪聲,比如隨機(jī)翻轉(zhuǎn)部分樣本的標(biāo)簽。

7.使用Adam優(yōu)化器

  1. Adam優(yōu)化器對于GAN來說非常有用。
  2. 在生成器中使用Adam,在判別器中使用SGD。

8.追蹤訓(xùn)練失敗的信號

  1. 判別器的損失=0說明模型訓(xùn)練失敗。
  2. 如果生成器的損失穩(wěn)步下降,說明判別器沒有起作用。

9.在輸入端適當(dāng)添加噪聲

  1. 在判別器的輸入中加入一些人工噪聲。
  2. 在生成器的每層中都加入高斯噪聲。

10.生成器和判別器差異化訓(xùn)練

  1. 多訓(xùn)練判別器,尤其是加了噪聲的時候。

11.Two Timescale Update Rule (TTUR)

對判別器和生成器使用不同的學(xué)習(xí)速度。使用較低的學(xué)習(xí)率更新生成器,判別器使用較高的學(xué)習(xí)率進(jìn)行更新。

12.Gradient Penalty (梯度懲罰)

使用梯度懲罰機(jī)制可以極大增強(qiáng) GAN 的穩(wěn)定性,盡可能減少mode collapse問題的產(chǎn)生。

13.Spectral Normalization(譜歸一化)

Spectral normalization可以用在判別器的weight normalization技術(shù),可以確保判別器是K-Lipschitz連續(xù)的。

14.使用多個GAN結(jié)構(gòu)

可以使用多個GAN/多生成器/多判別器結(jié)構(gòu)來讓GAN訓(xùn)練更穩(wěn)定,提升整體效果,解決更難的問題。

5.深度學(xué)習(xí)煉丹可以調(diào)節(jié)的一些超參數(shù)

  1. 預(yù)處理(數(shù)據(jù)尺寸,數(shù)據(jù)Normalization)
  2. Batch-Size
  3. 學(xué)習(xí)率
  4. 優(yōu)化器
  5. 損失函數(shù)
  6. 激活函數(shù)
  7. Epoch
  8. 權(quán)重初始化
  9. NAS網(wǎng)絡(luò)架構(gòu)搜索

6.Spectral Normalization的相關(guān)知識

Spectral Normalization是一種wegiht Normalization技術(shù),和weight-clipping以及gradient penalty一樣,也是讓模型滿足1-Lipschitz條件的方式之一。

Lipschitz(利普希茨)條件限制了函數(shù)變化的劇烈程度,即函數(shù)的梯度,來確保統(tǒng)計(jì)的有界性。因此函數(shù)更加平滑,在神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程中,參數(shù)變化也會更穩(wěn)定,不容易出現(xiàn)梯度爆炸

Lipschitz條件的約束如下所示:

截屏2023-11-13 20 35 07

其中 K K K 代表一個常數(shù),即利普希茨常數(shù)。若 K = 1 K=1 K=1 ,則是1-Lipschitz。

在GAN領(lǐng)域,Spectral Normalization有很多應(yīng)用。在WGAN中,只有滿足1-Lipschitz約束時,W距離才能轉(zhuǎn)換成較好求解的對偶問題,使得WGAN更加從容的訓(xùn)練。

如果想讓矩陣A映射: R n → R m R^{n}\to R^{m} RnRm 滿足K-Lipschitz連續(xù),K的最小值為 λ 1 \sqrt{\lambda_{1}} λ1? ? ( λ 1 \lambda_{1} λ1? A T A A_TA AT?A 的最大特征值),那么要想讓矩陣A滿足1-Lipschitz連續(xù),只需要在A的所有元素上同時除以 λ 1 \sqrt{\lambda_{1}} λ1? ? (Spectral norm)。

Spectral Normalization實(shí)際上在做的事,是將每層的參數(shù)矩陣除以自身的最大奇異值,本質(zhì)上是一個逐層SVD的過程,但是真的去做SVD就太耗時了,所以采用冪迭代的方法求解。過程如下圖所示:

冪迭代法流程

得到譜范數(shù) σ l ( W ) \sigma_l(W) σl?(W) 后,每個參數(shù)矩陣上的參數(shù)皆除以它,以達(dá)到Normalization的目的。

http://www.risenshineclean.com/news/3863.html

相關(guān)文章:

  • 南寧網(wǎng)站空間深圳網(wǎng)絡(luò)推廣推薦
  • 網(wǎng)站開發(fā)排行榜最新疫情最新消息
  • 備案時候網(wǎng)站不能打開嗎it教育培訓(xùn)機(jī)構(gòu)排名
  • logo免費(fèi)下載網(wǎng)站如何推廣自己的微信公眾號
  • 常熟專業(yè)做網(wǎng)站seo技術(shù)顧問阿亮
  • 做網(wǎng)站需要用到那些軟件中國優(yōu)秀網(wǎng)頁設(shè)計(jì)案例
  • 網(wǎng)頁制作培訓(xùn)學(xué)費(fèi)seo人員工作內(nèi)容
  • 免費(fèi)查企業(yè)最好的網(wǎng)站杭州seo博客
  • 陜西印象盒子seo整站優(yōu)化吧
  • php做網(wǎng)站開源項(xiàng)目東莞網(wǎng)站設(shè)計(jì)
  • 高中學(xué)校網(wǎng)站模板如何制作一個網(wǎng)站
  • 網(wǎng)站抄襲別人的做可以嗎網(wǎng)站入口百度
  • 常熟建設(shè)銀行 招聘網(wǎng)站seddog站長之家
  • 公司網(wǎng)站維護(hù)內(nèi)容重慶seo公司
  • wordpress插件直播長沙seo工作室
  • 專門做面條菜譜的網(wǎng)站輿情監(jiān)測軟件免費(fèi)版
  • 網(wǎng)站建設(shè)的費(fèi)用是多少錢購物網(wǎng)站如何推廣
  • 做燈箱的網(wǎng)站百度收錄網(wǎng)站提交入口
  • 網(wǎng)站規(guī)劃與建設(shè)大作業(yè)b站網(wǎng)站推廣mmm
  • 做棋牌網(wǎng)站合法熱狗seo顧問
  • 黃頁網(wǎng)站是什么指數(shù)
  • 網(wǎng)站建設(shè) app百度怎么優(yōu)化排名
  • 網(wǎng)站背景跟著鼠標(biāo)動的圖怎么做sem優(yōu)化
  • 東湖南昌網(wǎng)站建設(shè)公司杭州網(wǎng)站優(yōu)化效果
  • 網(wǎng)站的形成網(wǎng)站整站優(yōu)化推廣方案
  • 做海報文案的參考網(wǎng)站什么是網(wǎng)絡(luò)整合營銷
  • wordpress站點(diǎn)描述濮陽市網(wǎng)站建設(shè)
  • 幫做3d模型的網(wǎng)站南寧seo怎么做優(yōu)化團(tuán)隊(duì)
  • python庫之web網(wǎng)站開發(fā)PPT今天剛剛發(fā)生的重大新聞
  • 綿陽市建設(shè)局網(wǎng)站全網(wǎng)推廣怎么做