廣州天河區(qū)網(wǎng)站建設(shè)搜索引擎推廣有哪些
背景參考:
1、提取主成分
- 對樣本進(jìn)行PCA分析,查看不同變量貢獻(xiàn)率,確定主要的指標(biāo)。
我們可以通過下列代碼獲取需要的所有數(shù)據(jù):
import numpy as np
from sklearn.decomposition import PCA# 創(chuàng)建一個數(shù)據(jù)
np.random.seed(0)
data = np.random.random((100,5))
y = np.random.randint(0,6,100)# 進(jìn)行pca
pca = PCA()
x_new = pca.fit_transform(data)# 獲取每個特征對于每個主成分的貢獻(xiàn)率
explained_variance_ratio = pca.explained_variance_ratio_
print("排序的貢獻(xiàn)率:",explained_variance_ratio)# 獲取每個特征對于每個主成分的特征值(排序了的)
explained_variance = pca.explained_variance_
print("排序的特征值:",explained_variance)# 獲取每個特征對于每個主成分的特征值(未排序的)
cov_matrix = np.cov(data.T) # 計(jì)算協(xié)方差矩陣
eigen_values, eigen_vectors = np.linalg.eig(cov_matrix) # 計(jì)算特征值和特征向量
print("未排序的特征值:",eigen_values)# 獲取載荷系數(shù),即特征向量
components = pca.components_
print("排序的載荷系數(shù),即特征向量:\n",components) # 行代表主成分,即第一行為第一主成分
我們獲得輸出如下:
排序的貢獻(xiàn)率: [0.2679184 0.22563357 0.20109877 0.16265843 0.14269083]
排序的特征值: [0.11390347 0.09592639 0.08549561 0.06915299 0.06066392]
未排序的特征值: [0.11390347 0.09592639 0.08549561 0.06066392 0.06915299]
排序的載荷系數(shù),即特征向量:[[ 0.2792074 0.32459124 0.54648931 0.5063108 0.51154917][ 0.38799128 -0.41011012 0.47386964 -0.6498715 0.18543747][-0.48817892 0.14380819 -0.23333252 -0.33626022 0.75728829][-0.11980573 -0.83842108 -0.10090177 0.45633566 0.25352175][-0.72030127 -0.05309911 0.64200605 -0.00179817 -0.25723834]]
2、計(jì)算各個變量的權(quán)重系數(shù)
- 從上述結(jié)果中我們可以看出,前4個主成分的貢獻(xiàn)率達(dá)到了85.73%,因此我們可以說所有指標(biāo)基本可以由前四個主成分對應(yīng)的指標(biāo)代替(通過未排序的特征值確定是那幾個指標(biāo))。
- 隨后我們計(jì)算這四個主成分的線性組合公式。計(jì)算這四個主成分的線性組合公式,我們需要計(jì)算他們的系數(shù)。
-
確定主成分在各線性組合中的系數(shù)。
在之前,我們先假設(shè)這5個變量分別是:a1、a2、a3、a4、a5。他們的系數(shù)分別是: λ 1 \lambda _{1} λ1?、 λ 2 \lambda _{2} λ2?、 λ 3 \lambda _{3} λ3?、 λ 4 \lambda _{4} λ4?、 λ 5 \lambda _{5} λ5?。
公式: 系數(shù) = 載荷系數(shù) / 對應(yīng)主成分的特征值的開方
即: λ i = L i j V i ,其中: L i j 代表第 i 個主成分中第 j 個載荷的數(shù)值, V i 代表第 i 個主成分的特征值。 \lambda _{i}= \frac{L_{ij}}{\sqrt{V_{i}}} , 其中:L_{ij}代表第i個主成分中第j個載荷的數(shù)值,V_{i}代表第i個主成分的特征值。 λi?=Vi??Lij??,其中:Lij?代表第i個主成分中第j個載荷的數(shù)值,Vi?代表第i個主成分的特征值。
例如第一主成分的線性組合公式:
λ 1 = 0.2792074 0.11390347 = 0.82729 \lambda _{1}=\frac{0.2792074}{\sqrt{0.11390347}} = 0.82729 λ1?=0.11390347?0.2792074?=0.82729
λ 2 = 0.32459124 0.11390347 = 0.96176 \lambda _{2}=\frac{0.32459124}{\sqrt{0.11390347}} = 0.96176 λ2?=0.11390347?0.32459124?=0.96176
λ 3 = 0.54648931 0.11390347 = 1.61924 \lambda _{3}=\frac{0.54648931}{\sqrt{0.11390347}} = 1.61924 λ3?=0.11390347?0.54648931?=1.61924
λ 4 = 0.5063108 0.11390347 = 1.50019 \lambda _{4}=\frac{0.5063108}{\sqrt{0.11390347}} = 1.50019 λ4?=0.11390347?0.5063108?=1.50019
λ 5 = 0.51154917 0.11390347 = 1.51572 \lambda _{5}=\frac{0.51154917}{\sqrt{0.11390347}} = 1.51572 λ5?=
-