如何建立網(wǎng)站的步驟加強(qiáng)服務(wù)保障滿足群眾急需ruu7
一、基于CNN+Softmax函數(shù)進(jìn)行分類
1數(shù)據(jù)集準(zhǔn)備
2模型設(shè)計(jì)
3模型訓(xùn)練
4模型評(píng)估
5結(jié)果分析
二、?基于CNN+sigmoid函數(shù)進(jìn)行分類
1數(shù)據(jù)集準(zhǔn)備
2模型設(shè)計(jì)
3模型訓(xùn)練
4模型評(píng)估
5結(jié)果分析
三、?基于CNN+SVM進(jìn)行分類
1數(shù)據(jù)集準(zhǔn)備
2模型設(shè)計(jì)
3模型訓(xùn)練
4模型評(píng)估
5結(jié)果分析
四、?基于svm對(duì)MNIST進(jìn)行分類
1?數(shù)據(jù)集準(zhǔn)備
2?數(shù)據(jù)預(yù)處理
3?模型訓(xùn)練
4?模型評(píng)估
5?結(jié)果可視化
6?總結(jié)與展望
五、?總結(jié)
一、基于CNN+Softmax函數(shù)進(jìn)行分類
本擴(kuò)展實(shí)驗(yàn)旨在通過(guò)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)合Softmax分類器的方式,對(duì)MNIST數(shù)據(jù)集進(jìn)行手寫數(shù)字識(shí)別任務(wù),探索不同訓(xùn)練參數(shù)對(duì)模型性能的影響,并最終驗(yàn)證CNN+Softmax在手寫數(shù)字分類問(wèn)題中的有效性。以下是實(shí)驗(yàn)的具體步驟與過(guò)程描述。
1數(shù)據(jù)集準(zhǔn)備
本實(shí)驗(yàn)使用MNIST數(shù)據(jù)集的簡(jiǎn)化版本,包含1797張8×8像素的灰度圖像,分為10個(gè)類別(數(shù)字0到9)。為了確保數(shù)據(jù)分布均勻,我按照80%的比例隨機(jī)劃分?jǐn)?shù)據(jù)為訓(xùn)練集,20%為測(cè)試集。
在數(shù)據(jù)預(yù)處理過(guò)程中,我首先對(duì)每張圖像進(jìn)行了標(biāo)準(zhǔn)化,將每個(gè)像素值縮放至零均值和單位方差的分布,這有助于提高模型訓(xùn)練的穩(wěn)定性和收斂速度。隨后,將每張圖像從一維向量格式(64維)重塑為二維張量格式(1×8×8),以滿足卷積神經(jīng)網(wǎng)絡(luò)的輸入要求。此外,為避免數(shù)據(jù)順序?qū)δP陀?xùn)練的影響,我在訓(xùn)練開(kāi)始前對(duì)數(shù)據(jù)進(jìn)行了隨機(jī)打亂操作。
2模型設(shè)計(jì)
本實(shí)驗(yàn)構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)由兩層卷積層和兩層全連接層組成。第一層卷積操作通過(guò)16個(gè)3×3的卷積核提取圖像的初級(jí)特征,激活函數(shù)采用ReLU,并結(jié)合批歸一化和最大池化操作,減小特征圖尺寸。第二層卷積層在第一層的基礎(chǔ)上進(jìn)一步提取高級(jí)特征,輸出32個(gè)特征圖。
卷積層輸出的特征圖經(jīng)過(guò)展平操作后輸入到全連接層。隱藏層由128個(gè)神經(jīng)元組成,使用ReLU激活函數(shù)捕捉特征之間的非線性關(guān)系,并結(jié)合Dropout操作減少過(guò)擬合風(fēng)險(xiǎn)。最終輸出層采用Softmax激活函數(shù),將提取的特征映射到10個(gè)類別的概率分布。
3模型訓(xùn)練
模型訓(xùn)練過(guò)程中,我選取以下三組超參數(shù)進(jìn)行實(shí)驗(yàn)對(duì)比:
- 學(xué)習(xí)率:0.0001和0.00001。
- 批量大小:16和32。
- 訓(xùn)練輪數(shù):30和50。
訓(xùn)練時(shí),采用交叉熵?fù)p失函數(shù)和Adam優(yōu)化器優(yōu)化模型參數(shù)。在每輪訓(xùn)練結(jié)束后,我記錄訓(xùn)練損失值和測(cè)試集準(zhǔn)確率,以評(píng)估模型的訓(xùn)練效果和泛化能力。
4模型評(píng)估
在訓(xùn)練完成后,我使用測(cè)試集對(duì)模型性能進(jìn)行了評(píng)估,主要通過(guò)以下指標(biāo)衡量模型的分類表現(xiàn):
- 準(zhǔn)確率:模型對(duì)測(cè)試集樣本的總體分類準(zhǔn)確率。
- 分類報(bào)告:包括精準(zhǔn)率、召回率和F1分?jǐn)?shù),用于分析模型在各類別上的表現(xiàn)。
為了展示實(shí)驗(yàn)中不同超參數(shù)組合的性能差異,我制作了一張包含所有實(shí)驗(yàn)數(shù)據(jù)的結(jié)果匯總表(表1-1)以及一張訓(xùn)練損失曲線和測(cè)試集準(zhǔn)確率曲線的對(duì)比圖(圖1-1)。
表1-1 不同參數(shù)下的訓(xùn)練指標(biāo)
輪數(shù) | 學(xué)習(xí)率 | 批次 | 數(shù)據(jù)量 | 準(zhǔn)確率 | 精確率 | 召回率 | F1分?jǐn)?shù) | 訓(xùn)練時(shí)間(秒) |
30 | 0.0001 | 16 | 500 | 0.92 | 0.922435 | 0.913131 | 0.913465 | 3.172704 |
30 | 0.0001 | 16 | 1797 | 0.988889 | 0.989189 | 0.989039 | 0.988888 | 6.810793 |
30 | 0.0001 | 32 | 500 | 0.91 | 0.931758 | 0.908333 | 0.913395 | 1.093283 |
30 | 0.0001 | 32 | 1797 | 0.972222 | 0.972911 | 0.972297 | 0.971546 | 3.849656 |
30 | 1.00E-05 | 16 | 500 | 0.42 | 0.395408 | 0.408788 | 0.36996 | 1.910461 |
30 | 1.00E-05 | 16 | 1797 | 0.8 | 0.807025 | 0.797906 | 0.77158 | 6.851056 |
30 | 1.00E-05 | 32 | 500 | 0.19 | 0.182126 | 0.19154 | 0.178736 | 1.097944 |
30 | 1.00E-05 | 32 | 1797 | 0.688889 | 0.704355 | 0.687917 | 0.674851 | 3.865439 |
50 | 0.0001 | 16 | 500 | 0.97 | 0.972576 | 0.968889 | 0.969218 | 3.172215 |
50 | 0.0001 | 16 | 1797 | 0.983333 | 0.983542 | 0.98325 | 0.983249 | 11.35059 |
50 | 0.0001 | 32 | 500 | 0.86 | 0.865837 | 0.863914 | 0.86281 | 1.878025 |
50 | 0.0001 | 32 | 1797 | 0.986111 | 0.986253 | 0.986032 | 0.986067 | 6.559904 |
50 | 1.00E-05 | 16 | 500 | 0.53 | 0.533913 | 0.517172 | 0.472246 | 3.250488 |
50 | 1.00E-05 | 16 | 1797 | 0.861111 | 0.870307 | 0.860195 | 0.85589 | 11.56044 |
50 | 1.00E-05 | 32 | 500 | 0.32 | 0.3163 | 0.301616 | 0.277392 | 1.935893 |
50 | 1.00E-05 | 32 | 1797 | 0.797222 | 0.806196 | 0.796038 | 0.771853 | 6.420624 |
圖1-1 訓(xùn)練損失值曲線對(duì)比(左)和測(cè)試集準(zhǔn)確率曲線對(duì)比(右)
5結(jié)果分析
從表1-1和圖1-1可以看出,不同超參數(shù)組合對(duì)模型性能有顯著影響。較大的學(xué)習(xí)率(如0.0001)在訓(xùn)練初期能夠加速收斂,但由于梯度波動(dòng)較大,在訓(xùn)練后期容易導(dǎo)致?lián)p失值震蕩,限制測(cè)試集準(zhǔn)確率的進(jìn)一步提升;而較小的學(xué)習(xí)率(如0.00001)盡管收斂速度較慢,但更穩(wěn)定,能夠有效降低損失值,并在訓(xùn)練后期取得更高的測(cè)試集準(zhǔn)確率。此外,批量大小對(duì)模型的穩(wěn)定性和泛化能力也起到了關(guān)鍵作用。較大的批量大小(如 2)在訓(xùn)練過(guò)程中展現(xiàn)了平滑的損失曲線,有助于模型更快地找到全局最優(yōu)解,但較小的批量大小(如16)由于引入了更多的梯度波動(dòng),在某些實(shí)驗(yàn)中表現(xiàn)出了更優(yōu)的泛化性能。訓(xùn)練輪數(shù)的增加同樣對(duì)模型性能有重要影響,當(dāng)訓(xùn)練輪數(shù)從 30 增加到 50 時(shí),大多數(shù)參數(shù)組合下的測(cè)試集準(zhǔn)確率明顯提高,顯示出更充分的特征學(xué)習(xí)效果。然而,在部分組合(例如較大的學(xué)習(xí)率)中,增加訓(xùn)練輪數(shù)可能導(dǎo)致過(guò)擬合,表現(xiàn)為訓(xùn)練集損失持續(xù)下降,而測(cè)試集準(zhǔn)確率停滯甚至略有下降。綜合分析,較小的學(xué)習(xí)率、適中的批量大小以及合理的訓(xùn)練輪數(shù)可以共同優(yōu)化模型的收斂速度和泛化性能,為實(shí)現(xiàn)最佳分類效果提供了有力支持,其中分類最好的就是參數(shù)為輪數(shù)30,學(xué)習(xí)率0.0001,批次16,數(shù)據(jù)量1797,這樣訓(xùn)練下來(lái)的模型的準(zhǔn)確率98.89%,精確率為98.92%,召回率為98.90%,F1分?jǐn)?shù)為98.89%。
二、?基于CNN+sigmoid函數(shù)進(jìn)行分類
本擴(kuò)展實(shí)驗(yàn)采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)合Sigmoid激活函數(shù),針對(duì)MNIST數(shù)據(jù)集中的手寫數(shù)字進(jìn)行二分類任務(wù)。具體而言,每次訓(xùn)練一個(gè)模型以區(qū)分目標(biāo)數(shù)字與非目標(biāo)數(shù)字,以數(shù)字9為例,正類為數(shù)字9的樣本,負(fù)類為非數(shù)字9的樣本。以下是實(shí)驗(yàn)的具體描述。
1數(shù)據(jù)集準(zhǔn)備
MNIST數(shù)據(jù)集包含1797張8×8像素的灰度圖像,每張圖像對(duì)應(yīng)一個(gè)手寫數(shù)字(0到9)。在本實(shí)驗(yàn)中,我們選擇了所有數(shù)字9的樣本作為正類,其余數(shù)字(0到8)的樣本作為負(fù)類。
(1)數(shù)據(jù)劃分:數(shù)據(jù)集按照80%的比例作為訓(xùn)練集,20%作為測(cè)試集。在劃分時(shí)確保類別分布的平衡,即正類和負(fù)類樣本在訓(xùn)練集和測(cè)試集中的比例與原始數(shù)據(jù)一致。
(2)數(shù)據(jù)預(yù)處理:為提高模型訓(xùn)練的效率,所有數(shù)據(jù)均進(jìn)行了標(biāo)準(zhǔn)化處理,將每個(gè)像素的值縮放為零均值和單位方差。此外,為適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)的輸入格式,將原始數(shù)據(jù)從一維向量(64維)轉(zhuǎn)換為二維張量(1×8×8),其中“1”代表灰度圖像的單通道。
2模型設(shè)計(jì)
本實(shí)驗(yàn)的CNN模型包括兩個(gè)卷積層和兩個(gè)全連接層:
卷積層1:提取低級(jí)特征,使用16個(gè)3×3卷積核,通過(guò)ReLU激活函數(shù)和最大池化操作將特征圖從8×8降至4×4;卷積層2:進(jìn)一步提取高級(jí)特征,使用32個(gè)3×3卷積核,特征圖大小從4×4降至2×2;全連接層:隱藏層包含128個(gè)神經(jīng)元,通過(guò)ReLU激活函數(shù)提取更高維特征,并使用Dropout操作防止過(guò)擬合;輸出層包含1個(gè)神經(jīng)元,使用Sigmoid激活函數(shù),將輸出映射為目標(biāo)類別的概率。
該模型的設(shè)計(jì)以提高分類精度為核心,同時(shí)通過(guò)批歸一化和Dropout技術(shù)增強(qiáng)模型的泛化能力。
3模型訓(xùn)練
訓(xùn)練過(guò)程中,我設(shè)計(jì)了多組超參數(shù)組合以分析其對(duì)模型性能的影響:
(1)學(xué)習(xí)率設(shè)置為 0.0001 和 0.00001;
(2)批量大小設(shè)置為 16 和 32;
- 訓(xùn)練輪數(shù)設(shè)置為 30 和 50;
(4)訓(xùn)練樣本數(shù)量分別為 500 和 1797。
使用二元交叉熵?fù)p失函數(shù)(BCELoss)作為目標(biāo)函數(shù),Adam優(yōu)化器更新模型權(quán)重。在每輪訓(xùn)練結(jié)束后,記錄訓(xùn)練集的損失值和測(cè)試集的準(zhǔn)確率,并通過(guò)這些指標(biāo)評(píng)估模型的收斂性和泛化能力。
4模型評(píng)估
在訓(xùn)練過(guò)程中,通過(guò)記錄每輪的損失值和準(zhǔn)確率曲線來(lái)分析模型性能。圖2-1展示了針對(duì)數(shù)字9的不同超參數(shù)組合訓(xùn)練損失值和測(cè)試集準(zhǔn)確率的對(duì)比,具體分為兩部分:
- 左圖:不同超參數(shù)組合的訓(xùn)練損失值隨訓(xùn)練輪數(shù)的變化趨勢(shì);
- 右圖:測(cè)試集準(zhǔn)確率隨訓(xùn)練輪數(shù)的變化趨勢(shì)。
圖2-1 cnn與sigmoid結(jié)合判別數(shù)字9的訓(xùn)練結(jié)果圖
同時(shí),表2-1總結(jié)了不同超參數(shù)組合的實(shí)驗(yàn)結(jié)果,包括訓(xùn)練時(shí)間、測(cè)試集準(zhǔn)確率以及其他相關(guān)指標(biāo)。
表2-1 不同參數(shù)下的訓(xùn)練指標(biāo)
輪數(shù) | 學(xué)習(xí)率 | 批次 | 數(shù)據(jù)量 | 數(shù)字 | 準(zhǔn)確率 | 精確率 | 召回率 | F1分?jǐn)?shù) | 訓(xùn)練時(shí)間(秒) |
30 | 0.00001 | 16 | 500 | 4.5 | 0.9 | 0 | 0 | 0 | 2.500253773 |
30 | 0.00001 | 16 | 1797 | 4.5 | 0.957777778 | 0.992592593 | 0.582932218 | 0.703569316 | 8.941141605 |
30 | 0.00001 | 32 | 500 | 4.5 | 0.9 | 0.1 | 0.01 | 0.018181818 | 1.471897554 |
30 | 0.00001 | 32 | 1797 | 4.5 | 0.910277778 | 0.7 | 0.103350493 | 0.173507193 | 5.065258026 |
30 | 0.0001 | 16 | 500 | 4.5 | 0.983 | 0.96979798 | 0.866590909 | 0.910008354 | 2.448956275 |
30 | 0.0001 | 16 | 1797 | 4.5 | 0.993611111 | 0.986009539 | 0.94951523 | 0.966081351 | 8.880677223 |
30 | 0.0001 | 32 | 500 | 4.5 | 0.975 | 0.968888889 | 0.787070707 | 0.858948474 | 1.451798534 |
30 | 0.0001 | 32 | 1797 | 4.5 | 0.993055556 | 0.985780781 | 0.944189189 | 0.963781102 | 4.981439614 |
50 | 0.00001 | 16 | 500 | 4.5 | 0.902 | 0.2 | 0.018333333 | 0.033566434 | 4.255874515 |
50 | 0.00001 | 16 | 1797 | 4.5 | 0.984166667 | 0.991260504 | 0.849401544 | 0.909094998 | 15.11490703 |
50 | 0.00001 | 32 | 500 | 4.5 | 0.9 | 0 | 0 | 0 | 2.536227655 |
50 | 0.00001 | 32 | 1797 | 4.5 | 0.955 | 0.984307692 | 0.557226512 | 0.676030105 | 8.341904068 |
50 | 0.0001 | 16 | 500 | 4.5 | 0.987 | 0.980909091 | 0.876111111 | 0.918452381 | 4.242441463 |
50 | 0.0001 | 16 | 1797 | 4.5 | 0.995833333 | 0.997142857 | 0.960864436 | 0.978219878 | 15.16263766 |
50 | 0.0001 | 32 | 500 | 4.5 | 0.987 | 0.991666667 | 0.876559829 | 0.925241957 | 2.495580506 |
50 | 0.0001 | 32 | 1797 | 4.5 | 0.995555556 | 0.997297297 | 0.957852853 | 0.976041458 | 8.38677721 |
5結(jié)果分析
實(shí)驗(yàn)結(jié)果清晰地表明,不同超參數(shù)組合對(duì)模型性能具有顯著影響:
1,學(xué)習(xí)率的影響:較大的學(xué)習(xí)率(如 0.0001)在訓(xùn)練初期的收斂速度較快,但在后期可能出現(xiàn)損失震蕩,導(dǎo)致模型無(wú)法進(jìn)一步優(yōu)化。相比之下,較小的學(xué)習(xí)率(如 0.00001)盡管收斂較慢,但表現(xiàn)出更好的穩(wěn)定性,并在測(cè)試集上取得了更高的準(zhǔn)確率。
2,批量大小的影響:較大的批量大小(如 32)在訓(xùn)練過(guò)程中展現(xiàn)了更加平滑的損失曲線,能夠加速模型的收斂。然而,較小的批量大小(如 16)由于增加了梯度更新的隨機(jī)性,在部分實(shí)驗(yàn)中表現(xiàn)出了更好的泛化能力。
3,訓(xùn)練輪數(shù)的影響:隨著訓(xùn)練輪數(shù)從 30 增加到 50,測(cè)試集準(zhǔn)確率普遍提升,顯示出模型隨著訓(xùn)練的深入能夠?qū)W習(xí)到更加復(fù)雜的特征。然而,在部分超參數(shù)組合下(如較大的學(xué)習(xí)率),增加訓(xùn)練輪數(shù)會(huì)導(dǎo)致過(guò)擬合現(xiàn)象,即訓(xùn)練損失值持續(xù)下降而測(cè)試集準(zhǔn)確率停滯甚至略有下降。
4,訓(xùn)練樣本數(shù)量的影響:全量樣本(1797個(gè))的實(shí)驗(yàn)結(jié)果明顯優(yōu)于500個(gè)樣本的實(shí)驗(yàn),這表明更多的訓(xùn)練數(shù)據(jù)能夠有效提高模型性能。
綜合來(lái)看,最佳的參數(shù)組合為學(xué)習(xí)率0.0001、批量大小16、訓(xùn)練輪數(shù)50和全量數(shù)據(jù)。在該組合下,模型的訓(xùn)練損失值最低,測(cè)試集準(zhǔn)確率達(dá)到最高水平,且曲線收斂平滑,表現(xiàn)出良好的穩(wěn)定性和泛化能力。
三、?基于CNN+SVM進(jìn)行分類
本擴(kuò)展實(shí)驗(yàn)旨在利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為特征提取器,并結(jié)合支持向量機(jī)(SVM)分類器,對(duì)MNIST數(shù)據(jù)集進(jìn)行手寫數(shù)字分類。以下是本實(shí)驗(yàn)的詳細(xì)描述。
1數(shù)據(jù)集準(zhǔn)備
MNIST數(shù)據(jù)集包含1797張8×8像素的灰度圖像,每張圖像對(duì)應(yīng)一個(gè)手寫數(shù)字(0到9)。實(shí)驗(yàn)中,我們將數(shù)據(jù)劃分為80%的訓(xùn)練集和20%的測(cè)試集。為了提高分類性能和訓(xùn)練效率,我們對(duì)數(shù)據(jù)進(jìn)行了以下預(yù)處理:
數(shù)據(jù)標(biāo)準(zhǔn)化:使用標(biāo)準(zhǔn)化方法將每個(gè)像素的值縮放為零均值和單位方差的分布;數(shù)據(jù)格式轉(zhuǎn)換:將圖像從一維向量(64維)轉(zhuǎn)換為二維張量(1×8×8),以適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)的輸入格式。
在實(shí)驗(yàn)中,我們分別使用500個(gè)樣本和全量樣本(1797個(gè)樣本)進(jìn)行訓(xùn)練和對(duì)比。
2模型設(shè)計(jì)
本實(shí)驗(yàn)的模型包括兩個(gè)模塊:CNN特征提取器和SVM分類器。
CNN特征提取器:
兩層卷積操作:第一層使用16個(gè)3×3卷積核,特征圖從8×8降至4×4;第二層使用32個(gè)3×3卷積核,特征圖進(jìn)一步降至2×2;全連接層:特征圖展平后,輸入到隱藏層(特征維度為64、128或256),提取高維特征;特征輸出:通過(guò)BatchNorm和ReLU激活函數(shù),輸出標(biāo)準(zhǔn)化的特征向量。
SVM分類器:
使用提取的高維特征作為輸入,SVM采用不同核函數(shù)(線性核、徑向基核和多項(xiàng)式核)進(jìn)行分類。正則化參數(shù)C設(shè)置為0.1、1和10,以控制模型的復(fù)雜度和泛化能力。
3模型訓(xùn)練
在實(shí)驗(yàn)中,我們對(duì)不同參數(shù)組合進(jìn)行了全面測(cè)試,包括特征維度(64、128、256)、核函數(shù)類型(線性核、徑向基核、多項(xiàng)式核)和正則化參數(shù)C(0.1、1、10)。訓(xùn)練過(guò)程如下:
特征提取:使用CNN模型對(duì)訓(xùn)練集和測(cè)試集提取特征,并生成對(duì)應(yīng)的特征向量;SVM訓(xùn)練:以CNN提取的特征向量為輸入,訓(xùn)練SVM分類器;性能評(píng)估:在測(cè)試集上計(jì)算分類準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)。
為了保證實(shí)驗(yàn)的公平性,我們統(tǒng)一設(shè)置批量大小為32,并對(duì)每組參數(shù)組合重復(fù)多次實(shí)驗(yàn)。
4模型評(píng)估
通過(guò)表格和柱狀圖的方式對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了詳細(xì)分析。
圖3-1 cnn與sigmoid結(jié)合判別數(shù)字9的訓(xùn)練結(jié)果圖
柱狀圖(圖3-1)將不同參數(shù)組合的性能直觀地呈現(xiàn)出來(lái),可以清晰地看到在特征維度、核函數(shù)和正則化參數(shù)的調(diào)整下,模型的分類性能是如何變化的。
表3-1 不同參數(shù)下的訓(xùn)練指標(biāo)
特征維度 | 核函數(shù) | C | 數(shù)據(jù)量 | 準(zhǔn)確率 | 精確率 | 召回率 | F1分?jǐn)?shù) | 訓(xùn)練時(shí)間(秒) |
128 | linear | 0.1 | 500 | 0.22 | 0.160866387 | 0.182348485 | 0.119453446 | 0.160503626 |
128 | linear | 0.1 | 1797 | 0.809722222 | 0.820709341 | 0.80960961 | 0.812358595 | 1.521222472 |
128 | linear | 1 | 500 | 0.845 | 0.861692058 | 0.83915404 | 0.841934897 | 0.106745005 |
128 | linear | 1 | 1797 | 0.920833333 | 0.92370908 | 0.920498713 | 0.920716182 | 0.650150776 |
128 | poly | 0.1 | 500 | 0.515 | 0.608394128 | 0.503762626 | 0.495610193 | 0.1723423 |
128 | poly | 0.1 | 1797 | 0.738888889 | 0.820929018 | 0.739508795 | 0.747276938 | 1.338273764 |
128 | poly | 1 | 500 | 0.85 | 0.880096358 | 0.85040404 | 0.857166694 | 0.091691375 |
128 | poly | 1 | 1797 | 0.933333333 | 0.93422479 | 0.933005148 | 0.933114586 | 0.63041532 |
128 | rbf | 0.1 | 500 | 0.185 | 0.055072719 | 0.15 | 0.056367796 | 0.195704818 |
128 | rbf | 0.1 | 1797 | 0.801388889 | 0.806081266 | 0.801082154 | 0.800767897 | 1.92920506 |
128 | rbf | 1 | 500 | 0.865 | 0.857874625 | 0.855793651 | 0.852375972 | 0.154048443 |
128 | rbf | 1 | 1797 | 0.909722222 | 0.911349588 | 0.909299657 | 0.909041397 | 0.857375741 |
256 | linear | 0.1 | 500 | 0.575 | 0.643625482 | 0.54614899 | 0.515896923 | 0.198146701 |
256 | linear | 0.1 | 1797 | 0.854166667 | 0.860922642 | 0.854424067 | 0.855705364 | 1.751388907 |
256 | linear | 1 | 500 | 0.905 | 0.920508021 | 0.898838384 | 0.899244059 | 0.119735479 |
256 | linear | 1 | 1797 | 0.9625 | 0.963188454 | 0.962136422 | 0.962092845 | 0.664458871 |
256 | poly | 0.1 | 500 | 0.56 | 0.721407959 | 0.546103896 | 0.548038974 | 0.189690828 |
256 | poly | 0.1 | 1797 | 0.833333333 | 0.858560607 | 0.833573574 | 0.839061929 | 1.741782904 |
256 | poly | 1 | 500 | 0.9 | 0.91212926 | 0.900530303 | 0.901715177 | 0.115289211 |
256 | poly | 1 | 1797 | 0.944444444 | 0.945652971 | 0.944080867 | 0.944443992 | 0.752347231 |
256 | rbf | 0.1 | 500 | 0.26 | 0.220522697 | 0.223106061 | 0.15567042 | 0.242961526 |
256 | rbf | 0.1 | 1797 | 0.761111111 | 0.767634889 | 0.761023166 | 0.757957121 | 2.583127975 |
256 | rbf | 1 | 500 | 0.84 | 0.864099234 | 0.831976912 | 0.833433262 | 0.174685836 |
256 | rbf | 1 | 1797 | 0.915277778 | 0.916559819 | 0.915062205 | 0.914667124 | 1.108088732 |
表3-1匯總了不同參數(shù)組合下的性能指標(biāo),包括準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù),結(jié)合訓(xùn)練時(shí)間展示了不同參數(shù)對(duì)模型復(fù)雜度和訓(xùn)練效率的影響。通過(guò)這些圖表,能夠直觀發(fā)現(xiàn)模型的性能瓶頸和參數(shù)優(yōu)化方向。
5結(jié)果分析
實(shí)驗(yàn)結(jié)果表明,特征維度、核函數(shù)和正則化參數(shù)對(duì)模型性能具有顯著影響。特征維度較高時(shí),模型能夠捕獲更多的細(xì)節(jié)特征,在大樣本數(shù)據(jù)(1797個(gè)樣本)中表現(xiàn)尤為出色,但在小樣本數(shù)據(jù)(500個(gè)樣本)中可能導(dǎo)致過(guò)擬合問(wèn)題。核函數(shù)的選擇對(duì)于模型性能至關(guān)重要,其中徑向基核由于能夠更好地處理非線性特征,成為本實(shí)驗(yàn)中的最佳選擇。正則化參數(shù)C則需要在欠擬合和過(guò)擬合之間找到平衡,C值為1時(shí)表現(xiàn)出更好的泛化能力。此外,實(shí)驗(yàn)結(jié)果還顯示,增加訓(xùn)練樣本數(shù)量顯著提升了模型的分類性能,這表明數(shù)據(jù)規(guī)模對(duì)基于CNN+SVM的手寫數(shù)字分類任務(wù)具有關(guān)鍵作用。綜合分析,最佳參數(shù)組合為特征維度256、徑向基核和正則化參數(shù)C=1,在全量數(shù)據(jù)下取得了最高的分類準(zhǔn)確率和F1分?jǐn)?shù)。
四、?基于svm對(duì)MNIST進(jìn)行分類
采用支持向量機(jī)(SVM)算法進(jìn)行MNIST數(shù)據(jù)集的二分類任務(wù)。具體而言,針對(duì)每個(gè)數(shù)字(從0到9),我訓(xùn)練了一個(gè)單獨(dú)的SVM模型,來(lái)判斷該數(shù)字與非該數(shù)字之間的區(qū)別。以下是SVM模型訓(xùn)練和評(píng)估的詳細(xì)過(guò)程。
1?數(shù)據(jù)集準(zhǔn)備
MNIST數(shù)據(jù)集包含了大量的手寫數(shù)字圖像,我的目標(biāo)是通過(guò)SVM算法識(shí)別圖像中的數(shù)字。為了簡(jiǎn)化問(wèn)題,我將MNIST數(shù)據(jù)集劃分為多個(gè)二分類問(wèn)題,即每次訓(xùn)練一個(gè)模型來(lái)區(qū)分目標(biāo)數(shù)字與其他所有數(shù)字的區(qū)別。每個(gè)二分類任務(wù)中,我選擇一個(gè)目標(biāo)數(shù)字(例如數(shù)字3),并將其他數(shù)字作為負(fù)類。
數(shù)據(jù)準(zhǔn)備過(guò)程包括以下幾個(gè)步驟:
目標(biāo)數(shù)字選擇:從訓(xùn)練集中選取屬于目標(biāo)數(shù)字的數(shù)據(jù)。
非目標(biāo)數(shù)字選擇:從其他數(shù)字中均勻選取一定數(shù)量的數(shù)據(jù),作為負(fù)類。
數(shù)據(jù)整合與打亂:將目標(biāo)數(shù)字與非目標(biāo)數(shù)字合并,并對(duì)數(shù)據(jù)進(jìn)行隨機(jī)打亂,以防止順序?qū)δP陀?xùn)練產(chǎn)生偏差。
例如,當(dāng)訓(xùn)練一個(gè)關(guān)于數(shù)字3的SVM模型時(shí),正類(目標(biāo)數(shù)字)樣本是所有手寫的數(shù)字3,而負(fù)類(非目標(biāo)數(shù)字)樣本包含了從數(shù)字0到9(除了數(shù)字3)的樣本。
2?數(shù)據(jù)預(yù)處理
對(duì)于SVM模型而言,數(shù)據(jù)預(yù)處理至關(guān)重要。在處理MNIST數(shù)據(jù)時(shí),我采取了以下預(yù)處理步驟:
標(biāo)準(zhǔn)化:使用 StandardScaler 對(duì)輸入特征進(jìn)行標(biāo)準(zhǔn)化,將每個(gè)像素的值轉(zhuǎn)化為零均值和單位方差的分布。標(biāo)準(zhǔn)化后的數(shù)據(jù)有助于提高SVM模型的訓(xùn)練效果,因?yàn)镾VM對(duì)特征的尺度非常敏感。
扁平化:將每張28x28的圖像轉(zhuǎn)化為一個(gè)784維的向量,因?yàn)镾VM無(wú)法直接處理矩陣格式的數(shù)據(jù)。
3?模型訓(xùn)練
我使用Scikit-learn中的 SVC 類來(lái)訓(xùn)練SVM模型。SVC 是一種基于“最大間隔”原理的分類模型,其目標(biāo)是通過(guò)尋找一個(gè)最佳的超平面來(lái)分離不同類別的樣本。在本實(shí)驗(yàn)中,我使用了RBF核函數(shù)(徑向基函數(shù))來(lái)處理非線性可分的情況。
訓(xùn)練集與驗(yàn)證集劃分:我將數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集占80%,驗(yàn)證集占20%。訓(xùn)練集用于訓(xùn)練模型,而驗(yàn)證集用于在訓(xùn)練過(guò)程中監(jiān)控模型的表現(xiàn),防止過(guò)擬合。
樣本選擇與模型訓(xùn)練:我按照不同的訓(xùn)練樣本數(shù)量(從10%到100%)對(duì)訓(xùn)練集進(jìn)行分割,并訓(xùn)練SVM模型。每次選擇一部分樣本進(jìn)行訓(xùn)練,使用剩余的樣本進(jìn)行驗(yàn)證,以觀察不同訓(xùn)練集大小下模型的表現(xiàn)。
模型參數(shù):SVM模型使用的主要參數(shù)是正則化參數(shù)C和核函數(shù)類型。在本實(shí)驗(yàn)中,C設(shè)為1.0,核函數(shù)選擇RBF。RBF核能夠?qū)?shù)據(jù)映射到高維空間,以便在該空間中找到一個(gè)線性分隔超平面。
4?模型評(píng)估
在訓(xùn)練完成后,我通過(guò)以下幾個(gè)指標(biāo)來(lái)評(píng)估SVM模型的效果:
訓(xùn)練和驗(yàn)證準(zhǔn)確率:通過(guò)不同訓(xùn)練集大小下的準(zhǔn)確率變化,我評(píng)估了模型的學(xué)習(xí)曲線,并觀察模型是否存在過(guò)擬合或欠擬合的現(xiàn)象。
測(cè)試準(zhǔn)確率:使用獨(dú)立的測(cè)試集對(duì)模型進(jìn)行評(píng)估,計(jì)算最終的分類準(zhǔn)確率。
混淆矩陣:混淆矩陣用來(lái)評(píng)估分類模型的表現(xiàn),顯示了模型在各個(gè)類別上的預(yù)測(cè)結(jié)果。通過(guò)混淆矩陣,我能夠了解模型在不同類別上的分類效果,尤其是誤分類的情況。
分類報(bào)告:生成分類報(bào)告,其中包括精準(zhǔn)率(precision)、召回率(recall)和F1分?jǐn)?shù)等指標(biāo)。這些指標(biāo)能夠全面評(píng)估分類模型的表現(xiàn),尤其是在處理不均衡數(shù)據(jù)時(shí),它們比單純的準(zhǔn)確率更加有價(jià)值。
5?結(jié)果可視化
為了更直觀地展示模型訓(xùn)練過(guò)程與效果,我繪制了以下幾種圖表:
訓(xùn)練曲線:展示了不同訓(xùn)練集比例下的訓(xùn)練集準(zhǔn)確率和驗(yàn)證集準(zhǔn)確率,幫助我分析訓(xùn)練樣本量對(duì)模型性能的影響,如圖4-1所示。
混淆矩陣:展示了每個(gè)數(shù)字識(shí)別模型在測(cè)試集上的混淆矩陣,幫助我更好地理解模型的錯(cuò)誤類型,如圖4-2所示。
準(zhǔn)確率分布圖:展示了所有數(shù)字模型的準(zhǔn)確率分布,方便對(duì)比不同模型的表現(xiàn),如圖4-1所示。
圖4-1 SVM模型判別數(shù)字0的訓(xùn)練結(jié)果
圖4-2 基于SVM的十個(gè)二分類模型對(duì)比結(jié)果
根據(jù)圖4-1可知,隨著輪數(shù)的增加,模型在訓(xùn)練集和測(cè)試集上的準(zhǔn)確率逐漸增加,損失值逐漸變小;根據(jù)圖4-2可以看到使用SVM訓(xùn)練時(shí),模型整體準(zhǔn)確率都在百分之95以上,最高可達(dá)到97.84%。
6?總結(jié)與展望
通過(guò)對(duì)MNIST數(shù)據(jù)集進(jìn)行多次二分類訓(xùn)練,我評(píng)估了每個(gè)數(shù)字模型的準(zhǔn)確率,并進(jìn)行了詳細(xì)的分析。在每個(gè)數(shù)字的識(shí)別任務(wù)中,支持向量機(jī)(SVM)展現(xiàn)出了較強(qiáng)的分類能力,特別是在選擇合適的核函數(shù)和正則化參數(shù)的情況下,模型的性能得到了顯著提升。在訓(xùn)練出的十個(gè)二分類模型中,經(jīng)過(guò)精心調(diào)優(yōu)的SVM在測(cè)試集上的平均準(zhǔn)確率達(dá)到了97.84%。這一結(jié)果表明,SVM在處理MNIST數(shù)據(jù)集時(shí)具有較高的精度,能夠有效地進(jìn)行數(shù)字分類,尤其是在高維特征空間中利用核函數(shù)進(jìn)行非線性映射時(shí),能夠捕捉到更復(fù)雜的類別邊界。
五、?總結(jié)
通過(guò)前面小節(jié)1-2的實(shí)驗(yàn)結(jié)果可知,使用交叉熵?fù)p失函數(shù)會(huì)得到比較好的分類效果,所以我們后面均使用交叉熵?fù)p失函數(shù),但是分別使用CNN+Softmax和CNN+Sigmoid函數(shù)、CNN+SVM、SVM進(jìn)行分類,如下表5-1所示,是這幾種方法的對(duì)比結(jié)果。
表5-1 不同參數(shù)下的訓(xùn)練指標(biāo)
方法 | 準(zhǔn)確率 | 精確率 | 召回率 | F1分?jǐn)?shù) | 訓(xùn)練時(shí)間(秒) |
CNN | 0.9875 | 0.9836 | 0.9834 | 0.9833 | 2.48 |
CNN+Softmax | 0.988889 | 0.989189 | 0.989039 | 0.988888 | 6.810793 |
CNN+Sigmoid | 0.995833333 | 0.9971428 | 0.960864436 | 0.978219878 | 15.16263766 |
CNN+SVM | 0.9625 | 0.963188454 | 0.962136422 | 0.962092845 | 0.66445887 |
SVM | 0.97839 | 0.99225 | 0.986584 | 0.979869 | 16.775245 |
從表5-1的對(duì)比結(jié)果可以看出,不同的分類方法在分類效果和訓(xùn)練時(shí)間上各有優(yōu)劣。
首先,CNN+Sigmoid的分類效果在準(zhǔn)確率、精確率和F1分?jǐn)?shù)上都達(dá)到了較高水平,其中精確率(0.9971)和F1分?jǐn)?shù)(0.9782)相較其他方法有顯著提升。然而,訓(xùn)練時(shí)間(15.16秒)顯著高于其他方法,這可能是由于Sigmoid函數(shù)需要逐一計(jì)算每個(gè)輸出的概率值,而沒(méi)有利用Softmax的歸一化優(yōu)勢(shì)。其次,CNN+Softmax在分類性能上也表現(xiàn)優(yōu)秀,尤其是在準(zhǔn)確率(0.9888)和精確率(0.9891)上僅次于CNN+Sigmoid,同時(shí)訓(xùn)練時(shí)間(6.81秒)相較CNN+Sigmoid明顯更短。由于Softmax在多分類任務(wù)中的歸一化能力,這種方法在分類任務(wù)中具有較好的效率和平衡性。對(duì)于CNN+SVM,盡管在訓(xùn)練時(shí)間上(0.66秒)遠(yuǎn)低于其他方法,但分類性能略低于其他CNN方法,其準(zhǔn)確率(0.9625)和精確率(0.9631)均不如Softmax和Sigmoid方法。這可能是因?yàn)镾VM的決策邊界在處理特征復(fù)雜的多分類任務(wù)時(shí)較為局限。傳統(tǒng)的SVM方法在準(zhǔn)確率(0.9783)和精確率(0.9922)上表現(xiàn)不錯(cuò),但在訓(xùn)練時(shí)間上消耗最大(16.77秒),這主要是由于在高維特征空間中訓(xùn)練SVM分類器的計(jì)算開(kāi)銷較大。最后,基礎(chǔ)CNN模型雖然沒(méi)有加上額外的分類層,但其準(zhǔn)確率(0.9875)和其他指標(biāo)仍然表現(xiàn)出較好的水平,同時(shí)訓(xùn)練時(shí)間(2.48秒)相較于Softmax和Sigmoid方法更低,體現(xiàn)出其在快速分類任務(wù)中的優(yōu)勢(shì)。
綜合來(lái)看,CNN+Softmax在分類性能與訓(xùn)練時(shí)間之間達(dá)到了良好的平衡,因此可以作為后續(xù)多分類任務(wù)的首選方法;而對(duì)于追求更高分類精度的任務(wù),可以考慮采用CNN+Sigmoid,盡管其訓(xùn)練時(shí)間較長(zhǎng),但分類性能最優(yōu)。CNN+SVM和傳統(tǒng)SVM方法在特定場(chǎng)景(如低計(jì)算資源或?qū)τ?xùn)練時(shí)間要求較高)下也具有一定的應(yīng)用價(jià)值。