aspnet網(wǎng)站開(kāi)發(fā)pdf汕頭網(wǎng)站設(shè)計(jì)
數(shù)據(jù)集(Data Set)即數(shù)據(jù)的集合,每一條單獨(dú)的數(shù)據(jù)被稱(chēng)為樣本(Sample)。
對(duì)于每個(gè)樣本,它通常具有一些屬性(Attribute)或者特征(Feature),
特征所具體取得值被稱(chēng)為特征值(Feature Value)。
色澤 | 根蒂 | 紋理 |
---|---|---|
青綠 | 稍蜷 | 模糊 |
烏黑 | 蜷縮 | 清晰 |
如上表所示的西瓜數(shù)據(jù)集中,色澤、根蒂、紋理就是西瓜的特征,烏黑、青綠為特征“色澤”的特征值。
訓(xùn)練集(Training Set)和測(cè)試集(Testing Set):在建立機(jī)器學(xué)習(xí)模型過(guò)程中,通常將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。其中,訓(xùn)練集用于對(duì)模型參數(shù)進(jìn)行訓(xùn)練,測(cè)試集用于對(duì)訓(xùn)練好的模型進(jìn)行測(cè)試,驗(yàn)證模型的性能好壞,包括準(zhǔn)確率、泛化能力。
驗(yàn)證集(Validation Set):用于在訓(xùn)練過(guò)程中檢驗(yàn)?zāi)P偷男阅?#xff0c;以調(diào)整參數(shù)和超參數(shù)。
驗(yàn)證集是為了使最終模型在測(cè)試集上測(cè)試之前對(duì)模型有一個(gè)初步的評(píng)價(jià),根據(jù)評(píng)價(jià)結(jié)果以調(diào)整參數(shù),當(dāng)模型在驗(yàn)證集上表現(xiàn)不錯(cuò)時(shí),最后在測(cè)試集上驗(yàn)證模型的最終性能。若沒(méi)有驗(yàn)證集,我們只能在最終的測(cè)試集上查看測(cè)試結(jié)果,而此時(shí)我們是不能再修改模型參數(shù)的,在測(cè)試集上驗(yàn)證只是查看模型的最終效果。而模型在訓(xùn)練出來(lái)后,根據(jù)訓(xùn)練集去調(diào)整參數(shù),即使得到效果再好,模型也不一定會(huì)在測(cè)試集上表現(xiàn)最優(yōu)。這種情況下,才需要?jiǎng)澐殖鲵?yàn)證集。
評(píng)估(Assessment):在訓(xùn)練出算法模型后,為了驗(yàn)證算法模型的好壞,需要對(duì)該算法在數(shù)據(jù)集上根據(jù)評(píng)價(jià)指標(biāo)進(jìn)行測(cè)試,這個(gè)測(cè)試過(guò)程就是算法的評(píng)估。在不同領(lǐng)域,有不一樣的評(píng)估指標(biāo)。例如,在信息檢索和推薦系統(tǒng)領(lǐng)域,通常使用準(zhǔn)確率、召回率作為衡量算法好壞的指標(biāo)。
模型(Model):模型是一種算法的表達(dá),模型用于在海量數(shù)據(jù)中查找模式或進(jìn)行預(yù)測(cè)。從數(shù)據(jù)中使用算法得到模型的過(guò)程稱(chēng)為學(xué)習(xí)(Learning)或訓(xùn)練(Training)。
過(guò)擬合(Overfitting):過(guò)擬合和欠擬合是模型在訓(xùn)練過(guò)程中的兩種不同狀態(tài)。過(guò)擬合是指模型在訓(xùn)練集上表現(xiàn)很好,但在測(cè)試集上卻表現(xiàn)很差。模型對(duì)訓(xùn)練集“死記硬背”,沒(méi)有理解數(shù)據(jù)背后的規(guī)律,泛化能力差。過(guò)擬合的原因主要是數(shù)據(jù)噪聲太大、特征太多、模型太復(fù)雜等造成的,可通過(guò)清洗數(shù)據(jù)、減少模型參數(shù),降低模型復(fù)雜度、增加懲罰因子(正則化)等方法加以解決。?
欠擬合(Underfitting):模型在訓(xùn)練集上就表現(xiàn)很差,不能獲得足夠低的誤差,無(wú)法學(xué)到數(shù)據(jù)背后的規(guī)律。欠擬合的原因主要是由于訓(xùn)練樣本數(shù)量少、模型復(fù)雜度過(guò)低、參數(shù)還未收斂就停止循環(huán)等造成的,可通過(guò)增加樣本數(shù)量、增加模型參數(shù)、提高模型復(fù)雜度、增加循環(huán)次數(shù)或改變學(xué)習(xí)率等方法加以解決。
正則化(Regularization):正則化就是在原始模型中引入正則項(xiàng)或懲罰項(xiàng),以防止過(guò)擬合和提高模型泛化性能的一類(lèi)方法的統(tǒng)稱(chēng)。
交叉驗(yàn)證(Cross Validation):就是通過(guò)各種組合切分方式,將數(shù)據(jù)集劃分為不同的訓(xùn)練集和測(cè)試集,用訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,用測(cè)試集測(cè)試模型的好壞,由此得到的多個(gè)不同的訓(xùn)練集和測(cè)試集組合以驗(yàn)證模型的方式稱(chēng)為交叉驗(yàn)證。一般交叉驗(yàn)證用于數(shù)據(jù)不是很充分的情況下,或?yàn)榱苏f(shuō)明模型效果的穩(wěn)定。有時(shí),交叉驗(yàn)證也可用于模型選擇。
特征選擇(Feature Selection):在構(gòu)建機(jī)器學(xué)習(xí)模型時(shí),選擇最具代表性和影響力的特征是非常重要的。特征選擇可以幫助提高模型的性能、減少過(guò)擬合的風(fēng)險(xiǎn),并且可以加速模型訓(xùn)練的過(guò)程。
特征提取(Feature Extraction):有時(shí)候原始數(shù)據(jù)的特征維度非常高或者包含了大量冗余信息,這時(shí)可以利用特征提取的方法將原始特征轉(zhuǎn)換成更加簡(jiǎn)潔、有效表示的特征,例如主成分分析(PCA)等技術(shù)。
多樣性(Diversity):在構(gòu)建集成學(xué)習(xí)(Ensemble Learning)模型時(shí),多樣性是指集成中各個(gè)基學(xué)習(xí)器之間的差異性。通過(guò)增加多樣性,可以提高集成模型的泛化能力和穩(wěn)定性。
偏差-方差權(quán)衡(Bias-Variance Tradeoff):在機(jī)器學(xué)習(xí)中,模型的誤差通常可以分解為偏差和方差兩部分。偏差描述了模型預(yù)測(cè)值與真實(shí)值之間的差距,而方差描述了模型對(duì)訓(xùn)練數(shù)據(jù)的敏感程度。偏差-方差權(quán)衡是指在模型設(shè)計(jì)中需要平衡偏差和方差,以獲得最優(yōu)的泛化能力。
超參數(shù)調(diào)優(yōu)(Hyperparameter Tuning):在機(jī)器學(xué)習(xí)模型中,除了模型參數(shù)外,還存在一些超參數(shù)需要事先確定。超參數(shù)調(diào)優(yōu)是指通過(guò)交叉驗(yàn)證等技術(shù)尋找最佳的超參數(shù)組合,以提高模型性能。