甘肅農(nóng)村網(wǎng)站建設(shè)汽車seo是什么意思
文章目錄
- Spark MLlib 特征工程(上)
- 特征工程
- 預(yù)處理 Encoding:StringIndexer
- 特征構(gòu)建:VectorAssembler
- 特征選擇:ChiSqSelector
- 歸一化:MinMaxScaler
- 模型訓(xùn)練
- 總結(jié)
Spark MLlib 特征工程(上)
前面我們一起構(gòu)建了一個(gè)簡(jiǎn)單的線性回歸模型,來(lái)預(yù)測(cè)美國(guó)愛(ài)荷華州的房?jī)r(jià)。從模型效果來(lái)看,模型的預(yù)測(cè)能力非常差。不過(guò),事出有因,一方面線性回歸的擬合能力有限,再者,我們使用的特征也是少的可憐。
要想提升模型效果,具體到我們“房?jī)r(jià)預(yù)測(cè)”的案例里就是把房?jī)r(jià)預(yù)測(cè)得更準(zhǔn),我們需要從特征和模型兩個(gè)方面著手,逐步對(duì)模型進(jìn)行優(yōu)化。
在機(jī)器學(xué)習(xí)領(lǐng)域,有一條盡人皆知的“潛規(guī)則”:Garbage in,garbage out。它的意思是說(shuō),當(dāng)我們喂給模型的數(shù)據(jù)是“垃圾”的時(shí)候,模型“吐出”的預(yù)測(cè)結(jié)果也是“垃圾”。垃圾是一句玩笑話,實(shí)際上,它指的是不完善的特征工程。
特征工程不完善的成因有很多,比如數(shù)據(jù)質(zhì)量參差不齊、特征字段區(qū)分度不高,還有特征選擇不到位、不合理,等等,我們必須要牢記一點(diǎn):特征工程制約著模型效果,它決定了模型效果的上限,也就是“天花板”。而模型調(diào)優(yōu),僅僅是在不停地逼近這個(gè)“天花板”而已。因此,提升模型效果的第一步,就是要做好特征工程。
打開(kāi)Spark MLlib 特征工程頁(yè)面,你會(huì)發(fā)現(xiàn)這里羅列著數(shù)不清的特征處理函數(shù),讓人眼花繚亂。作為初學(xué)者,看到這么長(zhǎng)的列表,更是會(huì)感到無(wú)所適從。
結(jié)合過(guò)往的應(yīng)用經(jīng)驗(yàn)?