鄭州公共住宅建設投資有限公司網(wǎng)站一站式媒體發(fā)稿平臺
目錄
機器學習術語?
標簽
特性
示例
模型
回歸與分類
深入了解機器學習:線性回歸?
深入了解機器學習:訓練和損失?
平方損失函數(shù):一種常用的損失函數(shù)
機器學習術語?
預計用時:8 分鐘
什么是(監(jiān)督式)機器學習?簡而言之,如下所示:
- 機器學習系統(tǒng)學習如何組合輸入以對從未見過的數(shù)據(jù)生成有用的預測。
我們來探索一下機器學習的基本術語。
標簽
標簽是指我們要預測的內容,即簡單線性回歸中的?y
?變量。標簽可以是小麥的未來價格、圖片中顯示的動物類型、音頻剪輯的含義,也可以是其他任何信息。
特性
特征是輸入變量,即簡單線性回歸中的?x
?變量。一個簡單的機器學習項目可能會使用單個功能,而更復雜的機器學習項目可以使用數(shù)百萬個功能,如下所示:
在垃圾郵件檢測器示例中,這些功能可能包括:
- 電子郵件文字中的字詞
- 發(fā)件人的地址
- 發(fā)送電子郵件的時間
- 電子郵件中包含詞組“一種奇怪的技巧”。
示例
樣本是指數(shù)據(jù)的特定實例:x。(我們將?x?顯示為粗體,表示它是一個矢量。)我們將示例分為兩類:
- 有標簽樣本
- 無標簽樣本
有標簽樣本同時包含特征和標簽。具體來說:
? labeled examples: {features, label}: (x, y)
使用有標簽樣本來訓練模型。在我們的垃圾郵件檢測器示例中,有標簽樣本是指用戶明確標記為“垃圾郵件”或“不是垃圾郵件”的個別電子郵件。
例如,下表顯示了從包含加利福尼亞州房價信息的數(shù)據(jù)集中獲取的 5 個有標簽樣本:
homeMedianAge (功能) | 會議室總數(shù) (設施) | 臥室總數(shù) (設施) | medianHouseValue (標簽) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
無標簽樣本包含特征,但不包含標簽。具體來說:
? unlabeled examples: {features, ?}: (x, ?)
以下是來自同一住房數(shù)據(jù)集的 3 個無標簽樣本(不包括?medianHouseValue
):
homeMedianAge (功能) | 會議室總數(shù) (設施) | 臥室總數(shù) (設施) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
使用有標簽樣本訓練模型后,我們便會使用該模型來預測無標簽樣本的標簽。在垃圾郵件檢測器中,無標簽樣本是用戶尚未添加標簽的新電子郵件。
模型
模型定義了特征和標簽之間的關系。例如,垃圾內容檢測模型可能會將某些功能與“垃圾內容”緊密關聯(lián)。我們重點介紹模型生命周期的兩個階段:
-
訓練是指創(chuàng)建或學習模型。也就是說,您向模型展示有標簽樣本,讓模型逐漸學習特征與標簽之間的關系。
-
推斷表示將經(jīng)過訓練的模型應用于無標簽樣本。也就是說,使用經(jīng)過訓練的模型做出有用的預測 (
y'
)。例如,在推理期間,您可以針對新的無標簽樣本預測?medianHouseValue
。
回歸與分類
回歸模型可預測連續(xù)值。例如,回歸模型做出的預測可回答如下問題:
-
加利福尼亞州一棟房子的價值是多少?
-
用戶點擊此廣告的可能性有多大?
分類模型可預測離散值。例如,分類模型做出的預測可回答如下問題:
-
指定的電子郵件是垃圾郵件還是非垃圾郵件?
-
這是狗、貓還是倉鼠的圖片?
關鍵術語
|
|
|
|
|
|
|
|
?
深入了解機器學習:線性回歸?
預計用時:6 分鐘
長久以來,人們都知道板球(昆蟲物種)在天氣炎熱的日子里會比在更冷的日子里鳴叫。數(shù)十年來,專業(yè)和業(yè)余科學家一直在編制每分鐘的鳴叫聲和溫度方面的數(shù)據(jù)。Ruth 大姨媽給您送上生日祝福,送上一份生日禮物,邀請您學習一個模型來預測這種關系。 您想利用這些數(shù)據(jù)來探索這種關系。
首先,通過繪制數(shù)據(jù)的方式檢查數(shù)據(jù):
?
圖 1. 每分鐘的鳴叫聲與溫度(以攝氏度為單位)。
如您所料,該圖表顯示了溫度隨著鳴叫聲次數(shù)的增加而上升。 鳴叫聲與溫度之間的關系是線性關系嗎?可以,您可以繪制一條直線來大致說明這種關系:
圖 2. 一種線性關系。
關鍵術語
|
|
|
|
深入了解機器學習:訓練和損失?
?
預計用時:6 分鐘
訓練模型只需從有標簽樣本中學習(確定)所有權重和偏差的理想值。在監(jiān)督式學習中,機器學習算法通過檢查許多示例并嘗試找到將損失降至最低的模型來構建模型;此過程稱為經(jīng)驗風險最小化。
損失是錯誤預測的懲罰。也就是說,損失是一個表示模型在單個樣本上的預測質量的數(shù)字。如果模型的預測完全準確,則損失為零,否則損失會更大。訓練模型的目的是從所有樣本中找到一組平均損失“較小”的權重和偏差。例如,圖 3 左側顯示的是高損失模型,右側顯示的是低損失模型。對于該圖,請注意以下幾點:
- 箭頭表示損失。
- 藍線表示預測。
?
圖 3. 左側模型中的損失較高;右側模型中的損失較低。
請注意,左側曲線圖中的箭頭比右側曲線圖中的箭頭長得多。顯然,相較于左側曲線圖中的線條,右側曲線圖中的預測模型要好得多。
您可能想知道是否可以創(chuàng)建數(shù)學函數(shù)(損失函數(shù)),以有意義的方式匯總各個損失。
平方損失函數(shù):一種常用的損失函數(shù)
我們在此探討的線性回歸模型使用一種稱為平方損失函數(shù)(也稱為?L2?損失)的損失函數(shù)。單個樣本的平方損失如下:
= the square of the difference between the label and the prediction= (observation - prediction(x))2= (y - y')2
關鍵術語
|
|
|
|
|
?
https://developers.google.com/machine-learning/crash-course/ml-intro?hl=zh-cn?