中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

招聘網(wǎng)站分析如何做網(wǎng)店推廣方案

招聘網(wǎng)站分析如何做,網(wǎng)店推廣方案,建個站的網(wǎng)站打不開,平臺網(wǎng)站建設(shè)方案模板下載簡介 GBDT (Gradient Boosting Decision Tree) 是機器學(xué)習(xí)中一個長盛不衰的模型,其主要思想是利用弱分類器(決策樹)迭代訓(xùn)練以得到最優(yōu)模型,該模型具有訓(xùn)練效果好、不易過擬合等優(yōu)點。GBDT不僅在工業(yè)界應(yīng)用廣泛,通常被…

簡介

GBDT (Gradient Boosting Decision Tree) 是機器學(xué)習(xí)中一個長盛不衰的模型,其主要思想是利用弱分類器(決策樹)迭代訓(xùn)練以得到最優(yōu)模型,該模型具有訓(xùn)練效果好、不易過擬合等優(yōu)點。GBDT不僅在工業(yè)界應(yīng)用廣泛,通常被用于多分類、點擊率預(yù)測、搜索排序等任務(wù)。而LightGBM(Light Gradient Boosting Machine)是一個實現(xiàn)GBDT算法的框架,支持高效率的并行訓(xùn)練,并且具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更好的準(zhǔn)確率、支持分布式可以快速處理海量數(shù)據(jù)等優(yōu)點。

提出的動機

常用的機器學(xué)習(xí)算法,例如神經(jīng)網(wǎng)絡(luò)等算法,都可以以mini-batch的方式訓(xùn)練,訓(xùn)練數(shù)據(jù)的大小不會受到內(nèi)存限制。而GBDT在每一次迭代的時候,都需要遍歷整個訓(xùn)練數(shù)據(jù)多次。如果把整個訓(xùn)練數(shù)據(jù)裝進內(nèi)存則會限制訓(xùn)練數(shù)據(jù)的大小;如果不裝進內(nèi)存,反復(fù)地讀寫訓(xùn)練數(shù)據(jù)又會消耗非常大的時間。尤其面對工業(yè)級海量的數(shù)據(jù),普通的GBDT算法是不能滿足其需求的。

LightGBM提出的主要原因就是為了解決GBDT在海量數(shù)據(jù)遇到的問題,讓GBDT可以更好更快地用于工業(yè)實踐。

XGBoost的缺點

在LightGBM提出之前,最有名的GBDT工具就是XGBoost了,它是基于預(yù)排序方法的決策樹算法。這種構(gòu)建決策樹的算法基本思想是:首先,對所有特征都按照特征的數(shù)值進行預(yù)排序。其次,在遍歷分割點的時候?qū)ふ乙粋€特征上的最好分割點。最后,在找到一個特征的最好分割點后,將數(shù)據(jù)分裂成左右子節(jié)點。

這樣的預(yù)排序算法的優(yōu)點是能精確地找到分割點。但是缺點也很明顯:首先,空間消耗大。這樣的算法需要保存數(shù)據(jù)的特征值,還保存了特征排序的結(jié)果(例如,為了后續(xù)快速的計算分割點,保存了排序后的索引),這就需要消耗訓(xùn)練數(shù)據(jù)兩倍的內(nèi)存。其次,時間上也有較大的開銷,在遍歷每一個分割點的時候,都需要進行分裂增益的計算,消耗的代價大。最后,對cache優(yōu)化不友好。在預(yù)排序后,特征對梯度的訪問是一種隨機訪問,并且不同的特征訪問的順序不一樣,無法對cache進行優(yōu)化。同時,在每一層長樹的時候,需要隨機訪問一個行索引到葉子索引的數(shù)組,并且不同特征訪問的順序也不一樣,也會造成較大的cache miss。

LightGBM的優(yōu)化

為了避免上述XGBoost的缺陷,并且能夠在不損害準(zhǔn)確率的條件下加快GBDT模型的訓(xùn)練速度,lightGBM在傳統(tǒng)的GBDT算法上進行了如下優(yōu)化:

  • 基于Histogram(直方圖)的決策樹算法。
  • 單邊梯度采樣 Gradient-based One-Side Sampling(GOSS):使用GOSS可以減少大量只具有小梯度的數(shù)據(jù)實例,這樣在計算信息增益的時候只利用剩下的具有高梯度的數(shù)據(jù)就可以了,相比XGBoost遍歷所有特征值節(jié)省了不少時間和空間上的開銷。
  • 互斥特征捆綁 Exclusive Feature Bundling(EFB):使用EFB可以將許多互斥的特征綁定為一個特征,這樣達到了降維的目的。
  • 帶深度限制的Leaf-wise的葉子生長策略:大多數(shù)GBDT工具使用低效的按層生長 (level-wise) 的決策樹生長策略,因為它不加區(qū)分的對待同一層的葉子,帶來了很多沒必要的開銷。實際上很多葉子的分裂增益較低,沒必要進行搜索和分裂。LightGBM使用了帶有深度限制的按葉子生長 (leaf-wise) 算法。
  • 直接支持類別特征(Categorical Feature)
  • 支持高效并行
  • Cache命中率優(yōu)化

LGBM原理:

1、基于Histogram的決策樹算法

? ? ? ? (1)直方圖算法

Histogram algorithm應(yīng)該翻譯為直方圖算法,直方圖算法的基本思想是:先把連續(xù)的浮點特征值離散化成data個整數(shù),同時構(gòu)造一個寬度為bins的直方圖。在遍歷數(shù)據(jù)的時候,根據(jù)離散化后的值作為索引在直方圖中累積統(tǒng)計量,當(dāng)遍歷一次數(shù)據(jù)后,直方圖累積了需要的統(tǒng)計量,然后根據(jù)直方圖的離散值,遍歷尋找最優(yōu)的分割點。

直方圖算法簡單理解為:首先確定對于每一個特征需要多少個箱子(bin)并為每一個箱子分配一個整數(shù);然后將浮點數(shù)的范圍均分成若干區(qū)間,區(qū)間個數(shù)與箱子個數(shù)相等,將屬于該箱子的樣本數(shù)據(jù)更新為箱子的值;最后用直方圖(#bins)表示。看起來很高大上,其實就是直方圖統(tǒng)計,將大規(guī)模的數(shù)據(jù)放在了直方圖中。

http://www.risenshineclean.com/news/65635.html

相關(guān)文章:

  • 網(wǎng)站續(xù)費怎么做分錄百度seo關(guān)鍵詞排名優(yōu)化
  • 如何做視頻網(wǎng)站技術(shù)優(yōu)化大師軟件下載
  • 網(wǎng)站建設(shè)綿陽網(wǎng)絡(luò)營銷品牌案例
  • 專門做物理的網(wǎng)站網(wǎng)絡(luò)營銷的概念和特點是什么
  • 網(wǎng)站后臺登陸不進去是怎么回事網(wǎng)絡(luò)營銷手段有哪四種
  • 網(wǎng)站上的logo怎么做有哪些網(wǎng)絡(luò)推廣平臺
  • 網(wǎng)站開發(fā)的響應(yīng)式和兼容性問題seo優(yōu)化是利用規(guī)則提高排名
  • 如何做電子書網(wǎng)站全網(wǎng)營銷系統(tǒng)是不是傳銷
  • 南京網(wǎng)站制作有限公司網(wǎng)站交易網(wǎng)
  • 做ppt找圖片在哪個網(wǎng)站重慶seo代理
  • 微信平臺的微網(wǎng)站怎么做網(wǎng)站關(guān)鍵詞優(yōu)化培訓(xùn)
  • 網(wǎng)站上的鏈接怎么做的有哪些搜索引擎網(wǎng)站
  • 網(wǎng)站建設(shè)演示ppt搜索引擎營銷ppt
  • 網(wǎng)站擁有權(quán)亞馬遜seo推廣
  • 公司公司網(wǎng)站建設(shè)公司平臺推廣銷售話術(shù)
  • 網(wǎng)站統(tǒng)計源碼google關(guān)鍵詞seo
  • 長沙做網(wǎng)站的公司有哪些百度代運營
  • 贛州seo快速霸屏短視頻優(yōu)化
  • 購物幫–做特惠的導(dǎo)購網(wǎng)站磁力bt種子搜索神器
  • 網(wǎng)站不能粘貼怎么做全國各城市疫情高峰感染進度
  • 17網(wǎng)站一起做網(wǎng)店普寧池尾雅晨做外貿(mào)有哪些網(wǎng)站平臺
  • 怎么做網(wǎng)站和服務(wù)器嗎百度網(wǎng)絡(luò)營銷中心
  • 微信高端網(wǎng)站建設(shè)中國國家培訓(xùn)網(wǎng)官網(wǎng)
  • 北京網(wǎng)站優(yōu)化步驟百度電腦版下載官方
  • 衡水精品網(wǎng)站建設(shè)報價seo網(wǎng)站快速排名
  • 做一個網(wǎng)站需要多久網(wǎng)絡(luò)推廣崗位職責(zé)和任職要求
  • 做訂餐網(wǎng)站數(shù)據(jù)庫應(yīng)該有哪些表edm營銷
  • 合江做網(wǎng)站網(wǎng)推廣公司
  • 油金地 做網(wǎng)站品牌推廣營銷平臺
  • 音樂盒的網(wǎng)站怎么做代寫稿子的平臺