中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

福州建設銀行社會招聘網(wǎng)站電商網(wǎng)站seo怎么做

福州建設銀行社會招聘網(wǎng)站,電商網(wǎng)站seo怎么做,動效網(wǎng)站建設,wordpress模板導入文章目錄1. 多屬性決策問題2. 熵(entropy)3. 信息熵4. 熵權法5. 熵權法的實現(xiàn)基于信息論的熵值法是根據(jù)各指標所含信息有序程度的差異性來確定指標權重的客觀賦權方法,僅依賴于數(shù)據(jù)本身的離散程度。熵用于度量不確定性,指標的離散…

文章目錄

    • 1. 多屬性決策問題
    • 2. 熵(entropy)
    • 3. 信息熵
    • 4. 熵權法
    • 5. 熵權法的實現(xiàn)

基于信息論的熵值法是根據(jù)各指標所含信息有序程度的差異性來確定指標權重的客觀賦權方法,僅依賴于數(shù)據(jù)本身的離散程度。

熵用于度量不確定性,指標的離散程度越大(不確定性越大)則熵值越大,表明指標值提供的信息量越多,則該指標的權重也應越大。

1. 多屬性決策問題

熵權法多用于多屬性決策問題中求解各個屬性的權值。我們先簡單介紹下多屬性決策:
多屬性決策指的是在考慮多個屬性的情況下,對一組(有限個)備選方案進行排序或者擇優(yōu)。
主要包含以下幾個組成部分:
(1)獲取屬性信息。
(2)屬性權重確定:包括主觀賦權法、客觀賦權法、主客觀結合的賦權法。
(3)多屬性決策:對決策所需的屬性信息進行集結,并基于相應策略對備選方案進行排序和擇優(yōu)。

這里,假設我們的數(shù)據(jù)的樣本數(shù)量為nnn,每個樣本有jjj個feature,那么對于一個樣本的一個feature的取值為: xijx_{ij}xij?
其中:
iii :第個樣本
jjj :第個feature

假設有這樣一個應用場景,由于每一個樣本都有很多feature,我想把這個樣本的這些feature總結為一個值,應該怎么做?即

![在這里插入圖片描述](https://img-blog.csdnimg.cn/75b679b827594e2bb40b53975f5df77b.p
我們有一萬種方法能達到這個目的,有了這個值,我們就可以進行排名、比較等操作。所以,這個值還得有點實際意義,不能是瞎攢出來的一個數(shù)。

熵權法(EEM, entropy evaluation method)是根據(jù)指標信息熵的大小對指標客觀賦值的一種方法,信息熵越大,代表該指標的離散程度很大,包含的信息就多,所賦予的權重就越大。也就是說,這個方法實際上關注的是變量的取值的多樣性,取值大小差異越大的,即離散程度越高的,就說明這個feature的重要程度很大,包含了更多的信息。

2. 熵(entropy)

熵的概念是由德國物理學家克勞修斯于1865年所提出。最初是用來描述“能量退化”的物質狀態(tài)參數(shù)之一,在熱力學中有廣泛的應用。

熱力學第二定律又被稱為”熵增“定律,從它的描述中大家也能明白一二:在自然狀態(tài)下,熱量只會從熱水杯傳遞給冷水杯,這個過程是不可逆的,而”熵“則是這個不可逆過程的度量。換而言之,封閉系統(tǒng)的熵只會不變或增加,不會減少。關于“熱力學熵”,最原始的宏觀表達式是:
在這里插入圖片描述

那時的熵僅僅是一個可以通過熱量改變來測定的物理量,其本質仍沒有很好的解釋,直到統(tǒng)計物理、信息論等一系列科學理論發(fā)展,熵的本質才逐漸被解釋清楚,即,熵的本質是一個系統(tǒng)“內(nèi)在的混亂程度”。

3. 信息熵

信息熵是一個數(shù)學上頗為抽象的概念,由大名鼎鼎的信息論之父——克勞德 ? 香農(nóng)提出。在這里不妨把信息熵理解成某種特定信息的出現(xiàn)概率(離散隨機事件的出現(xiàn)概率)。一個系統(tǒng)越是有序,信息熵就越低;反之,一個系統(tǒng)越是混亂,信息熵就越高。信息熵也可以說是系統(tǒng)有序化程度的一個度量。

一般說來,信息熵的表達式為:
在這里插入圖片描述

舉例1:

假設一個硬幣,投出正反兩面的概率都是50%,那么它的entropy為:
在這里插入圖片描述
也就是說,一個公平的硬幣,其正反面概率都是50%的情況下,熵最大化了。這件事推廣到有多個面的骰子也是一樣的,每個事件出現(xiàn)的概率越接近,樣本的混亂程度就越高,熵就越大。而如果某個事件的出現(xiàn)概率是壓倒性的,比其他所有事件出現(xiàn)概率加一起都高得多,那么熵就會比較小。

舉例2:

假設4個元素,每個元素的feature有1個特征x1,并且它有個類型y,即
在這里插入圖片描述

在這里插入圖片描述
我們發(fā)現(xiàn)一個很有趣的現(xiàn)象,就是進行分組以后,熵降低了。這實際上就是決策樹的基本原理,通過對屬性進行分割,從而降低整體的混亂程度。即對一個屬性的不同取值進行分組以后,每一組的混亂程度做個加權和,整體混亂程度要比分組之前的混亂程度還要低,也就是說每一組都更純粹一些。

當然,這里計算entropy的log2log_2log2?是以2為底,也可以以自然對數(shù)為底,函數(shù)圖像形狀是基本不變的。

4. 熵權法

回到最開始我們問的問題,就是我怎么對一大堆指標(feature)進行綜合一下,形成一個綜合的值。當然我們就是用簡單的加權和來做,但是我們還希望這個值具有一定的代表性。這個代表性我們就視為該feature下取值的多樣性,或者說離散程度。

也就是說,如果一張數(shù)據(jù)表有很多行數(shù)據(jù),每個數(shù)據(jù)又有很多feature,**如果某個feature的取值大家都一樣,這實際上也說明這個feature可以丟掉了,用什么數(shù)據(jù)訓練模型它都沒啥用。但如果這個feature的取值特別多,那么這么指標對于決策更有用。**因此我們?nèi)绻C合一個指標的話,我們就要給最多樣化,即離散程度最高的feature以最高的權重。

主要計算步驟如下:

(1)歸一化數(shù)據(jù)

這里對數(shù)據(jù)進行歸一化,主要是消除量綱的影響??梢圆捎?min-max歸一化或者mean-std歸一化方法。
數(shù)據(jù)歸一化方法可以參考博客:數(shù)據(jù)預處理——數(shù)據(jù)無量綱化(歸一化、標準化)

這里以min-max歸一化為例:
在這里插入圖片描述

這里有幾點需要注意的:

  • 如果原始數(shù)據(jù)中,不同屬性的取值在相近的量級上,xmaxx_{max}xmax?xminx_{min}xmin?可以直接取所有數(shù)據(jù)的最大最小值。
X_std = (X - np.min(X)) / (np.max(X) - np.min(X)
  • 如果原始數(shù)據(jù)中,不同屬性的取值量級相差較大,可以考慮使用列歸一化,即xmaxx_{max}xmax?xminx_{min}xmin?取列數(shù)據(jù)的列最大值和列最小值。
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
  • 如果原始數(shù)據(jù)中,某個屬性的取值完全一樣為xvx_{v}xv?,min、max、x 均相等,則基于min-max歸一化方法計算分子分母均為0,默認算出的該屬性數(shù)據(jù)均為0。

該屬性的取值大家都一樣,對于決策沒有作用,參與決策過程的權重理應很小很小。而歸一化后的0值數(shù)據(jù),經(jīng)過信息熵的計算后,P=1P=1P=1log(P)=0log(P)=0log(P)=0?P?log(P)=0-P * log(P) = 0?P?log(P)=0E=0E = 0E=0,安全權重系數(shù)計算公式,最后算出來的權值很大,不符合實際情況。

在這里插入圖片描述

這種情況下,我們可以在數(shù)據(jù)歸一化后,給數(shù)據(jù)加上一個很小的數(shù)值(比如1e-3)來避免樣本取值為0情況,即:x′′ij=xij′+0.001{x''}_{ij}=x'_{ij} + 0.001x′′ij?=xij?+0.001

(2)只關注第jjj個feature,計算每個樣本x′′ij{x''}_{ij}x′′ij?在第個feature下所占的全部取值的比例。
在這里插入圖片描述
這個比例其實就是視為概率了。
舉個例子,如果對于第jjj個feature,我們的樣本經(jīng)過歸一化以后取值為:
在這里插入圖片描述
我們可以理解為,取值越大,這個pijp_{ij}pij?的值就越大。相當于我們自定義了一個"概率",將其與取值聯(lián)系到了一起,這么做,是因為我們要計算的熵僅僅與概率有關,而如果xijx_{ij}xij?的取值特別多樣化,我們用它算出來的這個概率也會特別多樣化,有大有小,從而降低熵。

(3)計算第jjj個feature的熵
在這里插入圖片描述
(4)計算第jjj個feature的差異系數(shù)。

在這里插入圖片描述

這個差異系數(shù)的含義顯而易見,就是該feature的離散程度越高,該差異系數(shù)越高。

(5)對差異系數(shù)歸一化,計算第個feature的權重
在這里插入圖片描述

這樣對于每個feature,其離散程度越高,所占比重就會越高。這樣一來,我們就有了每個feature的權重了,下面我們用這個權重來算每個樣本的指標

(6)計算最終的統(tǒng)計測度:
在這里插入圖片描述

5. 熵權法的實現(xiàn)

先定義基礎數(shù)據(jù):

data = pd.DataFrame({'人均專著': [0.1, 0.2, 0.4, 0.9, 1.2], '生師比': [5, 6, 7, 10, 2], '科研經(jīng)費': [5000, 6000, 7000, 10000, 400],'逾期畢業(yè)率': [4.7, 5.6, 6.7, 2.3, 1.8]}, index=['院校' + i for i in list('ABCDE')])

【實現(xiàn)代碼 1】:

import numpy as npdef get_entropy_weight_1(data): # 熵權法需要使用原始數(shù)據(jù)作為輸入data = np.array(data)# 數(shù)據(jù)歸一化# 這里可以根據(jù)需要選擇mean-std歸一化或者min-max歸一化# 計算PijP = data / data.sum(axis=0) # 需要考慮分子為0的情況,可以考慮加一個epsilon=1e-3# 計算熵值E = np.nansum(-P * np.log(P) / np.log(len(data)), axis=0)# 計算權系數(shù)return (1 - E) / (1 - E).sum()get_entropy_weight_1(data)

程序輸出結果:

array([ 0.41803075,  0.14492264,  0.28588943,  0.15115718])

【實現(xiàn)代碼 2】:

def get_entropy_weight_2(data):""":param data: dataframe類型:return: 各指標權重列表"""# 數(shù)據(jù)歸一化# 這里可以根據(jù)需要選擇mean-std歸一化或者min-max歸一化m,n=data.shape#將dataframe格式轉化為matrix格式data=data.as_matrix(columns=None)# 第一步:計算kk=1/np.log(m)#第二步:計算pijpij=data/data.sum(axis=0)# 第三步:計算每種指標的信息熵tmp=np.nan_to_num(pij*np.log(pij))ej=-k*(tmp.sum(axis=0))# 第四步:計算每種指標的權重wi=(1-ej)/np.sum(1-ej)wi_list=list(wi)return  wi_listget_entropy_weight_2(data)
[0.41803075156086411,0.14492263660659988,0.28588943395852595,0.15115717787401006]

可以看到,兩個代碼的輸出結果一致,且各個屬性的權值加起來和為1。

這里,有幾個需要注意的點:

  • 數(shù)據(jù)歸一化:在原始數(shù)據(jù)量綱不一致時,我們使用熵權法之前可以先對數(shù)據(jù)做歸一化處理。這里可以根據(jù)數(shù)據(jù)的實際情況和業(yè)務需要選擇mean-std歸一化或者min-max歸一化。不同的歸一化方法,對最后求出來的權值會有影響。
  • 可以在數(shù)據(jù)歸一化后,給數(shù)據(jù)加上一個很小的數(shù)值(比如1e-3)來避免樣本取值為0情況,即:x′′ij=xij′+0.001{x''}_{ij}=x'_{ij} + 0.001x′′ij?=xij?+0.001
  • 除數(shù)為0的情況:上述計算過程涉及除法,會遇到除數(shù)為0的情況??梢越o除數(shù)加一個很小的數(shù)值,如epsilon=1e-3,以避免除以0的情況發(fā)生。

【參考博客】:

  • TOPSIS法(優(yōu)劣解距離法)介紹及 python3 實現(xiàn)
  • https://zhuanlan.zhihu.com/p/551107230
http://www.risenshineclean.com/news/51608.html

相關文章:

  • 用云速成美站怎么做網(wǎng)站360地圖下載最新版
  • 找網(wǎng)站做q幣如何推廣自己的網(wǎng)站
  • 在國內(nèi)做跨境電商怎么上外國網(wǎng)站杭州網(wǎng)站優(yōu)化服務
  • 項目名稱有創(chuàng)意大全搜索引擎優(yōu)化是什么
  • 做空比特幣網(wǎng)站網(wǎng)店營銷策略有哪些
  • 網(wǎng)站建設新趨勢百度網(wǎng)盤網(wǎng)頁版登錄
  • 南京市高淳區(qū)城鄉(xiāng)建設局網(wǎng)站營銷型網(wǎng)站推廣
  • 客戶網(wǎng)站建設市場推廣方案和思路
  • bootstrap做自己的網(wǎng)站北京seo公司工作
  • 自己做視頻網(wǎng)站資源從哪里來重慶seo網(wǎng)頁優(yōu)化
  • 商河網(wǎng)站建設友情鏈接交換群
  • 商會網(wǎng)站建設seo優(yōu)化網(wǎng)絡公司排名
  • 佛山外包網(wǎng)站建設營銷案例100例小故事及感悟
  • 甌北網(wǎng)站制作報價山西seo優(yōu)化公司
  • 網(wǎng)站 線框圖seo搜論壇
  • 官方網(wǎng)站模板百度網(wǎng)盤電腦版下載
  • 鋼管網(wǎng)站模板快照關鍵詞優(yōu)化
  • 做視頻網(wǎng)站要什么軟件下載成品短視頻軟件大全下載手機版
  • 深交所大宗交易平臺合肥百度搜索排名優(yōu)化
  • 網(wǎng)站付款接口這么做今日資訊最新消息
  • 網(wǎng)站開發(fā)使用的語言有哪些seo是什么意思中文翻譯
  • 自己做網(wǎng)站 服務器臨沂做網(wǎng)站推廣的公司
  • 專業(yè)做數(shù)據(jù)的網(wǎng)站有哪些寧波如何做seo排名優(yōu)化
  • 廣州外貿(mào)型網(wǎng)站智能網(wǎng)站排名優(yōu)化
  • 網(wǎng)頁在線制作網(wǎng)站搜索引擎優(yōu)化課程
  • 中國建設學會網(wǎng)站企業(yè)網(wǎng)站模板源碼
  • 做前后端網(wǎng)站教程免費軟文發(fā)布平臺
  • 江蘇水利工程建設招投標網(wǎng)站最佳bt磁力狗
  • 公司網(wǎng)站建設開題報告西安百度推廣電話
  • 廣東建設網(wǎng)工程信息網(wǎng)站無錫網(wǎng)站建設seo