中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

政務(wù)網(wǎng)站建設(shè)工作方案電商網(wǎng)站模板

政務(wù)網(wǎng)站建設(shè)工作方案,電商網(wǎng)站模板,網(wǎng)頁(yè)傳奇怎么刪除,做外貿(mào)英文網(wǎng)站數(shù)據(jù)清洗和特征選擇 數(shù)據(jù)清洗和特征挖掘的工作是在灰色框中框出的部分,即“數(shù)據(jù)清洗>特征,標(biāo)注數(shù)據(jù)生成>模型學(xué)習(xí)>模型應(yīng)用”中的前兩個(gè)步驟。 灰色框中藍(lán)色箭頭對(duì)應(yīng)的是離線處理部分。主要工作是 從原始數(shù)據(jù),如文本、圖像或者應(yīng)…

數(shù)據(jù)清洗和特征選擇

數(shù)據(jù)清洗和特征挖掘的工作是在灰色框中框出的部分,即“數(shù)據(jù)清洗=>特征,標(biāo)注數(shù)據(jù)生成=>模型學(xué)習(xí)=>模型應(yīng)用”中的前兩個(gè)步驟。
在這里插入圖片描述

灰色框中藍(lán)色箭頭對(duì)應(yīng)的是離線處理部分。主要工作是

  • 從原始數(shù)據(jù),如文本、圖像或者應(yīng)用數(shù)據(jù)中清洗出特征數(shù)據(jù)和標(biāo)注數(shù)據(jù)。
  • 對(duì)清洗出的特征和標(biāo)注數(shù)據(jù)進(jìn)行處理,例如樣本采樣,樣本調(diào)權(quán),異常點(diǎn)去除,特征歸一化處理,特征變化,特征組合等過(guò)程。最終生成的數(shù)據(jù)主要是供模型訓(xùn)練使用。

灰色框中綠色箭頭對(duì)應(yīng)的是在線處理的部分。所做的主要工作和離線處理的類似,主要的區(qū)別在于

  1. 不需要清洗標(biāo)注數(shù)據(jù),只需要處理得到特征數(shù)據(jù),在線模型使用特征數(shù)據(jù)預(yù)測(cè)出樣本可能的標(biāo)簽。
  2. 最終生成數(shù)據(jù)的用處,最終生成的數(shù)據(jù)主要用于模型的預(yù)測(cè),而不是訓(xùn)練。

在離線的處理部分,可以進(jìn)行較多的實(shí)驗(yàn)和迭代,嘗試不同的樣本采樣、樣本權(quán)重、特征處理方法、特征組合方法等,最終得到一個(gè)最優(yōu)的方法,在離線評(píng)估得到好的結(jié)果后,最終將確定的方案在線上使用。

另外,由于在線和離線環(huán)境不同,存儲(chǔ)數(shù)據(jù)、獲取數(shù)據(jù)的方法存在較大的差異。例如離線數(shù)據(jù)獲取可以將數(shù)據(jù)存儲(chǔ)在Hadoop,批量地進(jìn)行分析處理等操作,并且容忍一定的失敗。而在線服務(wù)獲取數(shù)據(jù)需要穩(wěn)定、延時(shí)小等,可以將數(shù)據(jù)建入索引、存入KV存儲(chǔ)系統(tǒng)等。

以點(diǎn)擊下單率預(yù)測(cè)為例,結(jié)合實(shí)例來(lái)介紹如何進(jìn)行數(shù)據(jù)清洗和特征處理。首先介紹下點(diǎn)擊下單率預(yù)測(cè)任務(wù),其業(yè)務(wù)目標(biāo)是提高團(tuán)購(gòu)用戶的用戶體驗(yàn),幫助用戶更快更好地找到自己想買的單子。這個(gè)概念或者說(shuō)目標(biāo)看起來(lái)比較虛,我們需要將其轉(zhuǎn)換成一個(gè)技術(shù)目標(biāo),便于度量和實(shí)現(xiàn)。最終確定的技術(shù)目標(biāo)是點(diǎn)擊下單率預(yù)估,去預(yù)測(cè)用戶點(diǎn)擊或者購(gòu)買團(tuán)購(gòu)單的概率。我們將預(yù)測(cè)出來(lái)點(diǎn)擊或者下單率高的單子排在前面,預(yù)測(cè)的越準(zhǔn)確,用戶在排序靠前的單子點(diǎn)擊、下單的就越多,省去了用戶反復(fù)翻頁(yè)的開銷,很快就能找到自己想要的單子。離線我們用常用的衡量排序結(jié)果的AUC指標(biāo),在線的我們通過(guò)ABTest來(lái)測(cè)試算法對(duì)下單率、用戶轉(zhuǎn)化率等指標(biāo)的影響。

特征使用方案

在確定了目標(biāo)之后,下一步,我們需要確定使用哪些數(shù)據(jù)來(lái)達(dá)到目標(biāo)。需要事先梳理哪些特征數(shù)據(jù)可能與用戶是否點(diǎn)擊下單相關(guān)。我們可以借鑒一些業(yè)務(wù)經(jīng)驗(yàn),另外可以采用一些特征選擇、特征分析等方法來(lái)輔助我們選擇。具體的特征選擇,特征分析等方法我們后面會(huì)詳細(xì)介紹。從業(yè)務(wù)經(jīng)驗(yàn)來(lái)判斷,可能影響用戶是否點(diǎn)擊下單的因素有:

  • 距離,很顯然這是一個(gè)很重要的特征。如果購(gòu)買一個(gè)離用戶距離較遠(yuǎn)的單子,用戶去消費(fèi)這個(gè)單子需要付出很多的代價(jià)。 當(dāng)然,也并不是沒(méi)有買很遠(yuǎn)單子的用戶,但是這個(gè)比例會(huì)比較小。
  • 用戶歷史行為,對(duì)于老用戶,之前可能在美團(tuán)有過(guò)購(gòu)買、點(diǎn)擊等行為。
  • 用戶實(shí)時(shí)興趣。
  • 單子質(zhì)量,上面的特征都是比較好衡量的,單子質(zhì)量可能是更復(fù)雜的一個(gè)特征。
  • 是否熱門,用戶評(píng)價(jià)人數(shù),購(gòu)買數(shù)等等。

在確定好要使用哪些數(shù)據(jù)之后,我們需要對(duì)使用數(shù)據(jù)的可用性進(jìn)行評(píng)估,包括數(shù)據(jù)的獲取難度,數(shù)據(jù)的規(guī)模,數(shù)據(jù)的準(zhǔn)確率,數(shù)據(jù)的覆蓋率等,

  • 數(shù)據(jù)獲取難度
    例如獲取用戶id不難,但是獲取用戶年齡和性別較困難,因?yàn)橛脩糇?cè)或者購(gòu)買時(shí),這些并不是必填項(xiàng)。即使填了也不完全準(zhǔn)確。這些特征可能是通過(guò)額外的預(yù)測(cè)模型預(yù)測(cè)的,那就存在著模型精度的問(wèn)題。
  • 數(shù)據(jù)覆蓋率
    數(shù)據(jù)覆蓋率也是一個(gè)重要的考量因素,例如距離特征,并不是所有用戶的距離我們都能獲取到。PC端的就沒(méi)有距離,還有很多用戶禁止使用它們的地理位置信息等。
    用戶歷史行為,只有老用戶才會(huì)有行為。
    用戶實(shí)時(shí)行為,如果用戶剛打開app,還沒(méi)有任何行為,同樣面臨著一個(gè)冷啟動(dòng)的問(wèn)題。
  • 數(shù)據(jù)的準(zhǔn)確率
    單子質(zhì)量,用戶性別等,都會(huì)有準(zhǔn)確率的問(wèn)題。

特征獲取方案

在選定好要用的特征之后,我們需要考慮一個(gè)問(wèn)題。就是這些數(shù)據(jù)從哪可以獲取?只有獲取了這些數(shù)據(jù)我們才能用上。否則,提一個(gè)不可能獲取到的特征,獲取不到,提了也是白提。下面就介紹下特征獲取方案。

  • 離線特征獲取方案
    離線可以使用海量的數(shù)據(jù),借助于分布式文件存儲(chǔ)平臺(tái),例如HDFS等,使用例如MapReduce,Spark等處理工具來(lái)處理海量的數(shù)據(jù)等。

  • 在線特征獲取方案
    在線特征比較注重獲取數(shù)據(jù)的延時(shí),由于是在線服務(wù),需要在非常短的時(shí)間內(nèi)獲取到相應(yīng)的數(shù)據(jù),對(duì)查找性能要求非常高,可以將數(shù)據(jù)存儲(chǔ)在索引、kv存儲(chǔ)等。而查找性能與數(shù)據(jù)的數(shù)據(jù)量會(huì)有矛盾,需要折衷處理,我們使用了特征分層獲取方案,如下圖所示。
    在這里插入圖片描述

  • 出于性能考慮。在粗排階段,使用更基礎(chǔ)的特征,數(shù)據(jù)直接建入索引。精排階段,再使用一些個(gè)性化特征等。

特征與標(biāo)注數(shù)據(jù)清洗

在了解特征數(shù)據(jù)放在哪兒、怎樣獲取之后。下一步就是考慮如何處理特征和標(biāo)注數(shù)據(jù)了

標(biāo)注數(shù)據(jù)清洗

首先介紹下如何清洗特征數(shù)據(jù),清洗特征數(shù)據(jù)方法可以分為離線清洗和在線清洗兩種方法。

  • 離線清洗數(shù)據(jù)

    離線清洗優(yōu)點(diǎn)是方便評(píng)估新特征效果,缺點(diǎn)是實(shí)時(shí)性差,與線上實(shí)時(shí)環(huán)境有一定誤差。對(duì)于實(shí)時(shí)特征難以訓(xùn)練得到恰當(dāng)?shù)臋?quán)重。

  • 在線清洗數(shù)據(jù)

    在線清洗優(yōu)點(diǎn)是實(shí)時(shí)性強(qiáng),完全記錄的線上實(shí)際數(shù)據(jù),缺點(diǎn)是新特征加入需要一段時(shí)間做數(shù)據(jù)積累。

樣本采樣與樣本過(guò)濾

特征數(shù)據(jù)只有在和標(biāo)注數(shù)據(jù)合并之后,才能用來(lái)做為模型的訓(xùn)練。下面介紹下如何清洗標(biāo)注數(shù)據(jù)。主要是數(shù)據(jù)采樣和樣本過(guò)濾。

數(shù)據(jù)采樣,例如對(duì)于分類問(wèn)題:選取正例,負(fù)例。對(duì)于回歸問(wèn)題,需要采集數(shù)據(jù)。對(duì)于采樣得到的樣本,根據(jù)需要,需要設(shè)定樣本權(quán)重。當(dāng)模型不能使用全部的數(shù)據(jù)來(lái)訓(xùn)練時(shí),需要對(duì)數(shù)據(jù)進(jìn)行采樣,設(shè)定一定的采樣率。采樣的方法包括隨機(jī)采樣,固定比例采樣等方法。

除了采樣外,經(jīng)常對(duì)樣本還需要進(jìn)行過(guò)濾,包括

  • 1.結(jié)合業(yè)務(wù)情況進(jìn)行數(shù)據(jù)的過(guò)濾,例如去除crawler抓取,spam,作弊等數(shù)據(jù)。

  • 2.異常點(diǎn)檢測(cè),采用異常點(diǎn)檢測(cè)算法對(duì)樣本進(jìn)行分析,常用的異常點(diǎn)檢測(cè)算法包括

    • 偏差檢測(cè),例如聚類,最近鄰等。

    • 基于統(tǒng)計(jì)的異常點(diǎn)檢測(cè)算法

      例如極差,四分位數(shù)間距,均差,標(biāo)準(zhǔn)差等,這種方法適合于挖掘單變量的數(shù)值型數(shù)據(jù)。全距(Range),又稱極差,是用來(lái)表示統(tǒng)計(jì)資料中的變異量數(shù)(measures of variation) ,其最大值與最小值之間的差距;四分位距通常是用來(lái)構(gòu)建箱形圖,以及對(duì)概率分布的簡(jiǎn)要圖表概述。

    • 基于距離的異常點(diǎn)檢測(cè)算法,主要通過(guò)距離方法來(lái)檢測(cè)異常點(diǎn),將數(shù)據(jù)集中與大多數(shù)點(diǎn)之間距離大于某個(gè)閾值的點(diǎn)視為異常點(diǎn),主要使用的距離度量方法有絕對(duì)距離 ( 曼哈頓距離 ) 、歐氏距離和馬氏距離等方法。

    • 基于密度的異常點(diǎn)檢測(cè)算法,考察當(dāng)前點(diǎn)周圍密度,可以發(fā)現(xiàn)局部異常點(diǎn),例如LOF算法

特征分類

在分析完特征和標(biāo)注的清洗方法之后,下面來(lái)具體介紹下特征的處理方法,先對(duì)特征進(jìn)行分類,對(duì)于不同的特征應(yīng)該有不同的處理方法。

根據(jù)不同的分類方法,可以將特征分為

(1) Low level特征和High level特征。

(2) 穩(wěn)定特征與動(dòng)態(tài)特征。

(3) 二值特征、連續(xù)特征、枚舉特征。

Low level特征是較低級(jí)別的特征,主要是原始特征,不需要或者需要非常少的人工處理和干預(yù),例如文本特征中的詞向量特征,圖像特征中的像素點(diǎn),用戶id,商品id等。Low level特征一般維度比較高,不能用過(guò)于復(fù)雜的模型。High level特征是經(jīng)過(guò)較復(fù)雜的處理,結(jié)合部分業(yè)務(wù)邏輯或者規(guī)則、模型得到的特征,例如人工打分,模型打分等特征,可以用于較復(fù)雜的非線性模型。Low level 比較針對(duì)性,覆蓋面小。長(zhǎng)尾樣本的預(yù)測(cè)值主要受high level特征影響。 高頻樣本的預(yù)測(cè)值主要受low level特征影響。

穩(wěn)定特征是變化頻率(更新頻率)較少的特征,例如評(píng)價(jià)平均分,團(tuán)購(gòu)單價(jià)格等,在較長(zhǎng)的時(shí)間段內(nèi)都不會(huì)發(fā)生變化。動(dòng)態(tài)特征是更新變化比較頻繁的特征,有些甚至是實(shí)時(shí)計(jì)算得到的特征,例如距離特征,2小時(shí)銷量等特征。或者叫做實(shí)時(shí)特征和非實(shí)時(shí)特征。針對(duì)兩類特征的不同可以針對(duì)性地設(shè)計(jì)特征存儲(chǔ)和更新方式,例如對(duì)于穩(wěn)定特征,可以建入索引,較長(zhǎng)時(shí)間更新一次,如果做緩存的話,緩存的時(shí)間可以較長(zhǎng)。對(duì)于動(dòng)態(tài)特征,需要實(shí)時(shí)計(jì)算或者準(zhǔn)實(shí)時(shí)地更新數(shù)據(jù),如果做緩存的話,緩存過(guò)期時(shí)間需要設(shè)置的較短。

二值特征主要是0/1特征,即特征只取兩種值:0或者1,例如用戶id特征:目前的id是否是某個(gè)特定的id,詞向量特征:某個(gè)特定的詞是否在文章中出現(xiàn)等等。連續(xù)值特征是取值為有理數(shù)的特征,特征取值個(gè)數(shù)不定,例如距離特征,特征取值為是0~正無(wú)窮。枚舉值特征主要是特征有固定個(gè)數(shù)個(gè)可能值,例如今天周幾,只有7個(gè)可能值:周1,周2,…,周日。在實(shí)際的使用中,我們可能對(duì)不同類型的特征進(jìn)行轉(zhuǎn)換,例如將枚舉特征或者連續(xù)特征處理為二值特征。枚舉特征處理為二值特征技巧:將枚舉特征映射為多個(gè)特征,每個(gè)特征對(duì)應(yīng)一個(gè)特定枚舉值,例如今天周幾,可以把它轉(zhuǎn)換成7個(gè)二元特征:今天是否是周一,今天是否是周二,…,今天是否是周日。連續(xù)值處理為二值特征方法:先將連續(xù)值離散化(后面會(huì)介紹如何離散化),再將離散化后的特征切分為N個(gè)二元特征,每個(gè)特征代表是否在這個(gè)區(qū)間內(nèi)。

特征處理與分析

在對(duì)特征進(jìn)行分類后,下面介紹下對(duì)特征常用的處理方法。包括

1.特征歸一化,離散化,缺省值處理。

2.特征降維方法。

3.特征選擇方法等。

特征歸一化,離散化,缺省值處理

主要用于單個(gè)特征的處理。

  • 歸一化
    不同的特征有不同的取值范圍,在有些算法中,例如線性模型或者距離相關(guān)的模型像聚類模型、knn模型等,特征的取值范圍會(huì)對(duì)最終的結(jié)果產(chǎn)生較大影響,例如二元特征的取值范圍為[0,1],而距離特征取值可能是[0,正無(wú)窮),在實(shí)際使用中會(huì)對(duì)距離進(jìn)行截?cái)?#xff0c;例如[0,3000000],但是這兩個(gè)特征由于取值范圍不一致導(dǎo)致了模型可能會(huì)更偏向于取值范圍較大的特征,為了平衡取值范圍不一致的特征,需要對(duì)特征進(jìn)行歸一化處理,將特征取值歸一化到[0,1]區(qū)間。常用的歸一化方法包括

1.函數(shù)歸一化,通過(guò)映射函數(shù)將特征取值映射到[0,1]區(qū)間,例如最大最小值歸一化方法,是一種線性的映射。還有通過(guò)非線性函數(shù)的映射,例如log函數(shù)等。

2.分維度歸一化,可以使用最大最小歸一化方法,但是最大最小值選取的是所屬類別的最大最小值,即使用的是局部最大最小值,不是全局的最大最小值。

3.排序歸一化,不管原來(lái)的特征取值是什么樣的,將特征按大小排序,根據(jù)特征所對(duì)應(yīng)的序給予一個(gè)新的值。

  • 離散化
    在上面介紹過(guò)連續(xù)值的取值空間可能是無(wú)窮的,為了便于表示和在模型中處理,需要對(duì)連續(xù)值特征進(jìn)行離散化處理。常用的離散化方法包括等值劃分和等量劃分。等值劃分是將特征按照值域進(jìn)行均分,每一段內(nèi)的取值等同處理。例如某個(gè)特征的取值范圍為[0,10],我們可以將其劃分為10段,[0,1),[1,2),…,[9,10)。等量劃分是根據(jù)樣本總數(shù)進(jìn)行均分,每段等量個(gè)樣本劃分為1段。例如距離特征,取值范圍[0,3000000],現(xiàn)在需要切分成10段,如果按照等比例劃分的話,會(huì)發(fā)現(xiàn)絕大部分樣本都在第1段中。使用等量劃分就會(huì)避免這種問(wèn)題,最終可能的切分是[0,100),[100,300),[300,500),…,[10000,3000000],前面的區(qū)間劃分比較密,后面的比較稀疏。

  • 缺省值處理
    有些特征可能因?yàn)闊o(wú)法采樣或者沒(méi)有觀測(cè)值而缺失,例如距離特征,用戶可能禁止獲取地理位置或者獲取地理位置失敗,此時(shí)需要對(duì)這些特征做特殊的處理,賦予一個(gè)缺省值。缺省值如何賦予,也有很多種方法。例如單獨(dú)表示,眾數(shù),平均值等。

特征降維

在介紹特征降維之前,先介紹下特征升維。在機(jī)器學(xué)習(xí)中,有一個(gè)VC維理論。根據(jù)VC維理論,VC維越高,打散能力越強(qiáng),可容許的模型復(fù)雜度越高。在低維不可分的數(shù)據(jù),映射到高維是可分??梢韵胂?#xff0c;給你一堆物品,人腦是如何對(duì)這些物品進(jìn)行分類,依然是找出這些物品的一些特征,例如:顏色,形狀,大小,觸感等等,然后根據(jù)這些特征對(duì)物品做以歸類,這其實(shí)就是一個(gè)先升維,后劃分的過(guò)程。比如我們?nèi)四X識(shí)別香蕉??赡苁紫任覀儼l(fā)現(xiàn)香蕉是黃色的。這是在顏色這個(gè)維度的一個(gè)切分。但是很多東西都是黃色的啊,例如哈密瓜。那么怎么區(qū)分香蕉和哈密瓜呢?我們發(fā)現(xiàn)香蕉形狀是彎曲的。而哈密瓜是圓形的,那么我們就可以用形狀來(lái)把香蕉和哈密瓜劃分開了,即引入一個(gè)新維度:形狀,來(lái)區(qū)分。這就是一個(gè)從“顏色”一維特征升維到二維特征的例子。

那問(wèn)題來(lái)了,既然升維后模型能力能變強(qiáng),那么是不是特征維度越高越好呢?為什么要進(jìn)行特征降維&特征選擇?
主要是出于如下考慮:

  1. 特征維數(shù)越高,模型越容易過(guò)擬合,此時(shí)更復(fù)雜的模型就不好用。
  2. 相互獨(dú)立的特征維數(shù)越高,在模型不變的情況下,在測(cè)試集上達(dá)到相同的效果表現(xiàn)所需要的訓(xùn)練樣本的數(shù)目就越大。
  3. 特征數(shù)量增加帶來(lái)的訓(xùn)練、測(cè)試以及存儲(chǔ)的開銷都會(huì)增大。
  4. 在某些模型中,例如基于距離計(jì)算的模型KMeans,KNN等模型,在進(jìn)行距離計(jì)算時(shí),維度過(guò)高會(huì)影響精度和性能。
  5. 可視化分析的需要。在低維的情況下,例如二維,三維,我們可以把數(shù)據(jù)繪制出來(lái),可視化地看到數(shù)據(jù)。當(dāng)維度增高時(shí),就難以繪制出來(lái)了。

在機(jī)器學(xué)習(xí)中,有一個(gè)非常經(jīng)典的維度災(zāi)難的概念。用來(lái)描述當(dāng)空間維度增加時(shí),分析和組織高維空間,因體積指數(shù)增加而遇到各種問(wèn)題場(chǎng)景。例如,100個(gè)平均分布的點(diǎn)能把一個(gè)單位區(qū)間以每個(gè)點(diǎn)距離不超過(guò)0.01采樣;而當(dāng)維度增加到10后,如果以相鄰點(diǎn)距離不超過(guò)0.01小方格采樣單位超一單位超正方體,則需要10^20 個(gè)采樣點(diǎn)。

正是由于高維特征有如上描述的各種各樣的問(wèn)題,所以我們需要進(jìn)行特征降維和特征選擇等工作。特征降維常用的算法有PCA,LDA等。特征降維的目標(biāo)是將高維空間中的數(shù)據(jù)集映射到低維空間數(shù)據(jù),同時(shí)盡可能少地丟失信息,或者降維后的數(shù)據(jù)點(diǎn)盡可能地容易被區(qū)分

  • PCA算法
    通過(guò)協(xié)方差矩陣的特征值分解能夠得到數(shù)據(jù)的主成分,以二維特征為例,兩個(gè)特征之間可能存在線性關(guān)系(例如運(yùn)動(dòng)的時(shí)速和秒速度),這樣就造成了第二維信息是冗余的。PCA的目標(biāo)是發(fā)現(xiàn)這種特征之間的線性關(guān)系,并去除。

  • LDA算法
    考慮label,降維后的數(shù)據(jù)點(diǎn)盡可能地容易被區(qū)分

特征選擇

特征選擇的目標(biāo)是尋找最優(yōu)特征子集。特征選擇能剔除不相關(guān)(irrelevant)或冗余(redundant )的特征,從而達(dá)到減少特征個(gè)數(shù),提高模型精確度,減少運(yùn)行時(shí)間的目的。另一方面,選取出真正相關(guān)的特征簡(jiǎn)化模型,協(xié)助理解數(shù)據(jù)產(chǎn)生的過(guò)程。
特征選擇的一般過(guò)程如下圖所示:

在這里插入圖片描述

主要分為產(chǎn)生過(guò)程,評(píng)估過(guò)程,停止條件和驗(yàn)證過(guò)程。

產(chǎn)生過(guò)程和生成特征子集方法

  • 完全搜索(Complete)

    • 廣度優(yōu)先搜索( Breadth First Search )
      廣度優(yōu)先遍歷特征子空間。枚舉所有組合,窮舉搜索,實(shí)用性不高。

    • 分支限界搜索( Branch and Bound )
      窮舉基礎(chǔ)上加入分支限界。例如:剪掉某些不可能搜索出比當(dāng)前最優(yōu)解更優(yōu)的分支。

      其他,如定向搜索 (Beam Search ),最優(yōu)優(yōu)先搜索 ( Best First Search )等

  • 啟發(fā)式搜索(Heuristic)

    • 序列前向選擇( SFS , Sequential Forward Selection )

      從空集開始,每次加入一個(gè)選最優(yōu)。

    • 序列后向選擇( SBS , Sequential Backward Selection )

      從全集開始,每次減少一個(gè)選最優(yōu)。

    • 增L去R選擇算法 ( LRS , Plus-L Minus-R Selection )
      從空集開始,每次加入L個(gè),減去R個(gè),選最優(yōu)(L>R)或者從全集開始,每次減去R個(gè),增加L個(gè),選最優(yōu)(L<R)。

其他如雙向搜索( BDS , Bidirectional Search ),序列浮動(dòng)選擇( Sequential Floating Selection )等

  • 隨機(jī)搜索(Random)
    • 隨機(jī)產(chǎn)生序列選擇算法(RGSS, Random Generation plus Sequential Selection)
      隨機(jī)產(chǎn)生一個(gè)特征子集,然后在該子集上執(zhí)行SFS與SBS算法。
    • 模擬退火算法( SA, Simulated Annealing )
      以一定的概率來(lái)接受一個(gè)比當(dāng)前解要差的解,而且這個(gè)概率隨著時(shí)間推移逐漸降低
    • 遺傳算法( GA, Genetic Algorithms )
      通過(guò)交叉、突變等操作繁殖出下一代特征子集,并且評(píng)分越高的特征子集被選中參加繁殖的概率越高。

隨機(jī)算法共同缺點(diǎn):依賴隨機(jī)因素,有實(shí)驗(yàn)結(jié)果難重現(xiàn)。

有效性分析

對(duì)特征的有效性進(jìn)行分析,得到各個(gè)特征的特征權(quán)重,根據(jù)是否與模型有關(guān)可以分為
1.與模型相關(guān)特征權(quán)重,使用所有的特征數(shù)據(jù)訓(xùn)練出來(lái)模型,看在模型中各個(gè)特征的權(quán)重,由于需要訓(xùn)練出模型,模型相關(guān)的權(quán)重與此次學(xué)習(xí)所用的模型比較相關(guān)。不同的模型有不同的模型權(quán)重衡量方法。例如線性模型中,特征的權(quán)重系數(shù)等。
2.與模型無(wú)關(guān)特征權(quán)重。主要分析特征與label的相關(guān)性,這樣的分析是與這次學(xué)習(xí)所使用的模型無(wú)關(guān)的。與模型無(wú)關(guān)特征權(quán)重分析方法包括(1)交叉熵,(2)Information Gain,(3)Odds ratio,(4)互信息,(5)KL散度等

特征監(jiān)控

在機(jī)器學(xué)習(xí)任務(wù)中,特征非常重要。

  • 個(gè)人經(jīng)驗(yàn),80%的效果由特征帶來(lái)。下圖是隨著特征數(shù)的增加,最終模型預(yù)測(cè)值與實(shí)際值的相關(guān)系數(shù)變化。

在這里插入圖片描述

  • 對(duì)于重要的特征進(jìn)行監(jiān)控與有效性分析,了解模型所用的特征是否存在問(wèn)題,當(dāng)某個(gè)特別重要的特征出問(wèn)題時(shí),需要做好備案,防止災(zāi)難性結(jié)果。需要建立特征有效性的長(zhǎng)效監(jiān)控機(jī)制

    我們對(duì)關(guān)鍵特征進(jìn)行了監(jiān)控,下面特征監(jiān)控界面的一個(gè)截圖。通過(guò)監(jiān)控我們發(fā)現(xiàn)有一個(gè)特征的覆蓋率每天都在下降,與特征數(shù)據(jù)提供方聯(lián)系之后,發(fā)現(xiàn)特征數(shù)據(jù)提供方的數(shù)據(jù)源存在著問(wèn)題,在修復(fù)問(wèn)題之后,該特征恢復(fù)正常并且覆蓋率有了較大提升。

在這里插入圖片描述

  • 在發(fā)現(xiàn)特征出現(xiàn)異常時(shí),我們會(huì)及時(shí)采取措施,對(duì)服務(wù)進(jìn)行降級(jí)處理,并聯(lián)系特征數(shù)據(jù)的提供方盡快修復(fù)。對(duì)于特征數(shù)據(jù)生成過(guò)程中缺乏監(jiān)控的情況也會(huì)督促做好監(jiān)控,在源頭解決問(wèn)題。
http://www.risenshineclean.com/news/55055.html

相關(guān)文章:

  • 網(wǎng)站提交做外鏈有什么作用正規(guī)電商培訓(xùn)學(xué)校排名
  • 如何做服裝微商城網(wǎng)站建設(shè)外貿(mào)建站推廣哪家好
  • 網(wǎng)站建設(shè)推廣合同范本網(wǎng)站seo優(yōu)化皆宣徐州百都網(wǎng)絡(luò)不錯(cuò)
  • 宿遷網(wǎng)站制作win7優(yōu)化極致性能
  • 用wordpress制作軟件seo關(guān)鍵詞排名教程
  • 微商城開發(fā)公司有哪些比較好百度seo價(jià)格查詢
  • 企業(yè)網(wǎng)站建設(shè)模塊長(zhǎng)沙百度開戶
  • 綿陽(yáng)做最好優(yōu)化網(wǎng)站的云資源軟文發(fā)布平臺(tái)
  • 網(wǎng)站后臺(tái)管理是什么網(wǎng)絡(luò)seo公司
  • 做賭博網(wǎng)站賺企業(yè)網(wǎng)站推廣
  • 茂名網(wǎng)站制作價(jià)格生意參謀指數(shù)在線轉(zhuǎn)換
  • 電子商務(wù)網(wǎng)站購(gòu)物車怎么做建網(wǎng)站軟件工具
  • 自己做網(wǎng)站跟域名怎樣做常州網(wǎng)站建設(shè)制作
  • 美女直接做的網(wǎng)站有哪些汕頭網(wǎng)站建設(shè)方案推廣
  • 手機(jī)網(wǎng)站建設(shè)模板3步打造seo推廣方案
  • 學(xué)做ppt推薦網(wǎng)站收錄查詢 站長(zhǎng)工具
  • 南通網(wǎng)站制作專家比較靠譜的網(wǎng)站
  • 網(wǎng)頁(yè)設(shè)計(jì)的基礎(chǔ)aso優(yōu)化平臺(tái)有哪些
  • 嵊州市住房和城鄉(xiāng)建設(shè)局網(wǎng)站人民日?qǐng)?bào)今日新聞
  • 淄博論壇網(wǎng)站建設(shè)百度營(yíng)銷
  • 寧波制作網(wǎng)站公司廣告外鏈購(gòu)買交易平臺(tái)
  • 高端 網(wǎng)站制作廣告營(yíng)銷方式有哪幾種
  • 企業(yè)信息系統(tǒng)有哪些百度seo軟件
  • 外貿(mào)網(wǎng)站頁(yè)面用什么做最好可以推廣的平臺(tái)
  • 網(wǎng)站開發(fā)問(wèn)題論文定制型營(yíng)銷網(wǎng)站建設(shè)
  • 分析網(wǎng)站建設(shè)前期的seo準(zhǔn)備工作網(wǎng)絡(luò)營(yíng)銷案例100例
  • c web網(wǎng)站開發(fā)權(quán)限windows優(yōu)化大師靠譜嗎
  • 江山建設(shè)工程信息網(wǎng)站網(wǎng)站開發(fā)的基本流程
  • 有哪些設(shè)計(jì)網(wǎng)站佛山百度推廣電話
  • 熾樂(lè)清網(wǎng)站建設(shè)廣州seo公司官網(wǎng)