網(wǎng)站模板可視化編輯百度霸屏培訓(xùn)
4.1自回歸
? ? ? ? 自回歸是一種時(shí)間序列預(yù)測方法,僅依賴于時(shí)間序列的先前輸出:該技術(shù)假設(shè)下一個(gè)時(shí)間戳的未來觀測值與先前時(shí)間戳的觀測值存在線性關(guān)系。
? ? ? ?在自回歸中,前一個(gè)時(shí)間戳的輸出值成為預(yù)測下一個(gè)時(shí)間戳的輸入值,并且誤差遵循簡單線性回歸模型中關(guān)于誤差的一般假設(shè)。在自回歸中,時(shí)間序列中用于預(yù)測下一個(gè)時(shí)間戳的先前輸入值的數(shù)量稱為順序(我們一般用字母p表示順序)。該順序值決定了將使用多少個(gè)先前的數(shù)據(jù)點(diǎn):通常,數(shù)據(jù)科學(xué)家通過測試不同的值并觀測使用最小的赤池信息量準(zhǔn)則(AIC)得出的模型來估計(jì)p值。我們將在后面討論(AIC)和貝葉斯信息量準(zhǔn)則(BIC)懲罰似然準(zhǔn)則。
? ? ? ? 一階自回歸:將當(dāng)前預(yù)測值(輸出)基于緊接在前的值(輸入)的自回歸。
? ? ? ? 二階自回歸:使用前兩個(gè)值來預(yù)測下一個(gè)時(shí)間戳值。
? ? ? ? n階自回歸是多重線性回歸,其中在任何時(shí)間t的序列值都是該同一時(shí)間序列中先前值的線性函數(shù)。由于這種序列依賴性,自回歸的另一個(gè)重要方面是自相關(guān):自相關(guān)是一種統(tǒng)計(jì)特性,當(dāng)時(shí)間序列與其自身的之前或滯后版本線性相關(guān)時(shí),就會(huì)出現(xiàn)這種特性。
? ? ? ? 自相關(guān)是自回歸的相關(guān)概念,輸出(即需要預(yù)測的目標(biāo)變量)和特定的滯后變量(即先前時(shí)間戳用作輸入的一組值)之間的相關(guān)性越強(qiáng),自回歸賦予該特定變量的權(quán)重越大。因此該變量被認(rèn)為具有很強(qiáng)的預(yù)測能力。
? ? ? ? 參數(shù)方法:線性回歸、普通最小二乘回歸依賴于隱含的假設(shè),即用于訓(xùn)練模型的訓(xùn)練集中不存在自相關(guān)。與他們一起使用的數(shù)據(jù)集呈現(xiàn)正態(tài)分布,并且它們的回歸函數(shù)是根據(jù)有限數(shù)量的未知參數(shù)定義的,這些未知參數(shù)是從數(shù)據(jù)中估計(jì)得到的。
? ? ? ? 因此,自相關(guān)可以幫助data scientist 為時(shí)間序列預(yù)測解決方案選擇最合適的方法。此外自相關(guān)對于從數(shù)據(jù)和變量之間獲得額外的洞察力以及識別隱藏的模式(如時(shí)間序列中的季節(jié)性和趨勢)非常有用。
????????????????
? ? ? ? data scientist 還經(jīng)常使用自相關(guān)圖 通過計(jì)算波動(dòng)時(shí)滯后數(shù)據(jù)值的自相關(guān)性 來檢查時(shí)間序列中的隨機(jī)性。如果時(shí)間序列是隨機(jī)的,則所有時(shí)間滯后的自相關(guān)值應(yīng)該接近于零。如果時(shí)間序列不是隨機(jī)的,那么一個(gè)或多個(gè)自相關(guān)將顯著非零。
? ? ? ? ? ? ? ?
????????由于ts data load 集非常精細(xì),并且包含大量每小時(shí)的數(shù)據(jù)點(diǎn),所以我們無法看到
應(yīng)該在自相關(guān)圖中顯示的水平線。因此,我們可以創(chuàng)建數(shù)據(jù)集的子集(例如,可以選擇
2014年8月的第一周),然后再次應(yīng)用自相關(guān)圖函數(shù),如下所示:
????????????????
????????如圖4.5所示,自相關(guān)圖顯示了垂直軸上的自相關(guān)函數(shù)值。它的范圍是-1到1。圖
中顯示的水平線對應(yīng)于 95%和 99%置信區(qū)間,虛線對應(yīng)于99%置信區(qū)間。自相關(guān)圖旨
在揭示時(shí)間序列的數(shù)據(jù)點(diǎn)是正相關(guān)、負(fù)相關(guān)還是相互獨(dú)立的。
? ? ? ? 時(shí)間序列的滯后自相關(guān)圖也稱為自相關(guān)函數(shù)(ACF)。
? ? ? ? 運(yùn)行這些示例會(huì)創(chuàng)建兩個(gè)二維圖,分別顯示x軸上的滯后值和y軸上-1和1之間的相關(guān)性。
????????????????
????????????????
? ? ? ? 從這兩個(gè)圖中可以看出,置信區(qū)間被繪制成圓錐形。默認(rèn)情況下,置信區(qū)間設(shè)置為95%,這表明該圓錐體之外的值很可能是相關(guān)的。
????????如何理解95%的置信區(qū)間(超易懂)_嗶哩嗶哩_bilibili
? ? ? ?一個(gè)視頻講清楚置信區(qū)間!怎么理解、定義、評價(jià)、計(jì)算、與參考值區(qū)別,與P值關(guān)系_嗶哩嗶哩_bilibili
????????一個(gè)視頻搞清楚最大似然估計(jì),6min超簡單~_嗶哩嗶哩_bilibili
? ? ? ? 另一個(gè)需要考慮的重要概念是部分相關(guān)函數(shù)(PACF),它是一種條件相關(guān)。假設(shè)我們考慮一些其他變量集的值,這就是兩個(gè)變量之間的相關(guān)性。在回歸中,可以通過關(guān)聯(lián)兩個(gè)不同回歸的殘差來找到這部分相關(guān)性。
? ? ? ? 在時(shí)間序列數(shù)據(jù)集中,一個(gè)時(shí)間戳上的一個(gè)值和一個(gè)先前時(shí)間戳上的另一個(gè)值的自相關(guān)包括這兩個(gè)值之間的直接相關(guān)性和間接相關(guān)性。這些間接相關(guān)性是觀測值的相關(guān)性的線性函數(shù),其值介于其間的時(shí)間戳值。
? ? ? ? 滯后參數(shù)顯示將繪制PACF的滯后數(shù)。運(yùn)行這些示例會(huì)創(chuàng)建兩個(gè)二維圖,分別顯示前20個(gè)滯后和30個(gè)滯后的部分自相關(guān)。
????????
????????
????????