做公眾號(hào)還是網(wǎng)站百度一下你就知道了主頁
一、相關(guān)性分析介紹
相關(guān)性分析是指研究?jī)煞N或者兩種以上的變量之間相關(guān)關(guān)系的統(tǒng)計(jì)分析方法,一般分析步驟為:
- 1)判斷變量間是否存在關(guān)聯(lián);
- 2)分析關(guān)聯(lián)關(guān)系(線性/非線性)、關(guān)聯(lián)方向(正相關(guān)/負(fù)相關(guān))、關(guān)聯(lián)數(shù)量(單相關(guān)/復(fù)相關(guān)/偏相關(guān))和關(guān)聯(lián)強(qiáng)度(顯著相關(guān)/高度相關(guān)/中度相關(guān)/弱相關(guān))等關(guān)聯(lián)特征。
常用于度量?jī)蓚€(gè)或多個(gè)變量之間相關(guān)程度的指標(biāo)有:
如何把這些關(guān)聯(lián)特征表達(dá)得更易于理解,那就需要借助將相關(guān)性分析結(jié)果可視化的方法了。
在平時(shí)的論文閱讀中我們經(jīng)常看到有關(guān)相關(guān)性分析的內(nèi)容,作者們根據(jù)自己的表達(dá)需求,也向我們展示了五花八門的繪圖樣式,比如:散點(diǎn)圖、擬合線、相關(guān)矩陣(熱力圖)、相關(guān)性空間分布圖等。接下來詳細(xì)向大家介紹這些圖表的特點(diǎn)。
二、散點(diǎn)圖
一般情況下我們可以通過散點(diǎn)圖來檢測(cè)和了解變量間的關(guān)系。如果變量之間存在某種關(guān)聯(lián),那么數(shù)據(jù)點(diǎn)就會(huì)在圖上呈現(xiàn)某種趨勢(shì)。在某些情況下(如樣本點(diǎn)較少),可能會(huì)出現(xiàn)聚集趨勢(shì)不明顯的問題,這時(shí)我們可以借助線性擬合而成的“趨勢(shì)線”來輔助分析。
如下圖a中,利用散點(diǎn)圖展現(xiàn)了SSP126、SSP245、SSP370和SSP585排放情景下未來降水增長(zhǎng)率與未來氣溫增長(zhǎng)率之間的約束關(guān)系。由于單個(gè)情景下的散點(diǎn)數(shù)量較少,且多個(gè)情景的散點(diǎn)放置于同一張圖中進(jìn)行比較,散點(diǎn)的聚集趨勢(shì)難以肉眼捕捉,因此該圖對(duì)各個(gè)場(chǎng)景下的散點(diǎn)進(jìn)行線性擬合,展現(xiàn)出散點(diǎn)的分布趨勢(shì)線,便于讀者更為直觀地解讀。
- 這類散點(diǎn)圖可借助Python實(shí)現(xiàn),可參考:“Python-matplotlib 學(xué)術(shù)散點(diǎn)圖 EE 統(tǒng)計(jì)及繪制”
- 也可以借助R語言實(shí)現(xiàn),可參考:“R-ggplot2 學(xué)術(shù)散點(diǎn)圖繪制”
三、散點(diǎn)密度圖
若需對(duì)數(shù)據(jù)量很大的變量相關(guān)性進(jìn)行可視化,可考慮在散點(diǎn)圖的基礎(chǔ)上添加熱力圖元素,即通過將數(shù)據(jù)計(jì)數(shù)映射到顏色,來表現(xiàn)數(shù)據(jù)的分布情況。
下圖為無云日GRSAD模擬的逐月湖泊面積與另一個(gè)數(shù)據(jù)集的6715個(gè)湖泊逐月面積的比較。圖a顯示了兩個(gè)變量之間分布的密集程度,并通過添加輔助線的方式,在圖中顯示相應(yīng)點(diǎn)對(duì)應(yīng)的擬合效果(即R2 — 決定系數(shù),相關(guān)系數(shù)的平方)。
- 使用Matlab繪制散點(diǎn)密度圖,可參考:“如何使用Matlab繪制hist2d/密度散點(diǎn)圖” —?
- 還可通過R語言繪制,可參考:“Density 2d” —?https://r-graph-gallery.com/2d-
四、相關(guān)性空間分布圖
當(dāng)需要在流域、全國(guó)、甚至全球這樣的大空間尺度上進(jìn)行相關(guān)性分析時(shí),簡(jiǎn)單的散點(diǎn)圖+擬合線難以表達(dá)出相關(guān)性的空間變異性。此時(shí),在每個(gè)網(wǎng)格單元上計(jì)算變量之間的相關(guān)系數(shù),并繪制其空間分布圖,會(huì)是一個(gè)很好的選擇。
例如,下圖展示了1982-2015年北緯30°以上的地區(qū)植被生長(zhǎng)與水資源可用性指數(shù)之間相關(guān)性的空間分布及相應(yīng)的統(tǒng)計(jì)值。圖中的黑色原點(diǎn)表示該點(diǎn)所在計(jì)算單元的相關(guān)系數(shù)通過了顯著性檢驗(yàn)(p<0.05)。
- 可通過Matlab計(jì)算柵格數(shù)據(jù)相關(guān)性及其顯著性(M-K檢驗(yàn)),參考:“【Matlab】柵格數(shù)據(jù)相關(guān)分析及顯著性檢驗(yàn)”
五、相關(guān)性矩陣圖
相關(guān)性矩陣圖的表達(dá)優(yōu)勢(shì)在于單個(gè)圖上豐富的顏色變化可直觀反映數(shù)據(jù)信息,同時(shí),矩陣上還可以同時(shí)顯示對(duì)應(yīng)的p-value數(shù)值,添加其他圖形元素等,在一張圖中展現(xiàn)出多個(gè)變量間的關(guān)聯(lián)方向、關(guān)聯(lián)數(shù)量和關(guān)聯(lián)強(qiáng)度等關(guān)聯(lián)特征。
如下圖的圖(a)和圖(b)分別利用了相關(guān)性矩陣圖來驗(yàn)證策略a和a+下增強(qiáng)回歸樹(BRT)模型在時(shí)間尺度上的性能。該矩陣中的綠色色塊越多且越深,則說明該策略下的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的相關(guān)性越高;反之,深棕色色塊越多且越深,則說明該策略下的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的相關(guān)性越低。
相關(guān)性矩陣圖除了上圖的表達(dá)方式外,還可根據(jù)自己的需求對(duì)圖的顏色、圖例、數(shù)值標(biāo)簽等特征進(jìn)行調(diào)整,一般可以通過R語言的corrplot包、corrgram包、GGally包、ggcorrplot包等實(shí)現(xiàn),參考:
“超多類別!這個(gè)相關(guān)性矩陣?yán)L制工具絕了!”
“corrplot包可視化相關(guān)性矩陣的詳細(xì)教程”
六、成對(duì)矩陣圖
成對(duì)矩陣圖融合了散點(diǎn)圖、關(guān)系擬合線、概率分布圖以及相關(guān)系數(shù)值。能將圖和表格數(shù)據(jù)結(jié)合起來,真正做到一圖勝千言!適用于多變量相關(guān)性分析的可視化。
成對(duì)矩陣圖可通過R語言的ggpair函數(shù)實(shí)現(xiàn)方法,參考:
“Pairs plot with ggpairs” —?https://r-charts.com/correlatio