革命幻燈片 wordpress365優(yōu)化大師軟件下載
目錄
1 先從一個(gè)例題出來(lái),預(yù)期值和現(xiàn)實(shí)值的差異怎么評(píng)價(jià)?
1.1 這樣一個(gè)問(wèn)題
1.2 我們的一般分析
1.3 用到的關(guān)鍵點(diǎn)1
1.4 但是差距多遠(yuǎn),算是遠(yuǎn)呢?
2 極大似然估計(jì)
2.1 極大似然估計(jì)的目的
2.1.1?極大似然估計(jì)要解決什么問(wèn)題?
2.1.2?極大似然估計(jì)的原則:
2.2 什么是極大似然估計(jì)?
2.2.1 定義
2.2.2? 似然率,likehood
2.3 如何理解
2.4 如何落地?具體用什么來(lái)驗(yàn)證極大似然估計(jì)? K2檢驗(yàn)
3 K2檢驗(yàn) (K^2檢驗(yàn),K^2顯著度檢驗(yàn))
3.1 K2檢驗(yàn)
3.2 K2值de公式
3.3 K2值de判斷邏輯
3.4 具體步驟
3.5 K2值表
3.5.1 K2分布表
3.5.2 特點(diǎn)
3.6 K2分布的曲線
3.6.1 曲線圖形
3.6.2 特點(diǎn)
3.7 K2檢驗(yàn)有2個(gè)要素
3.8 K2檢驗(yàn)的過(guò)程
3.8.1 K2值獨(dú)立檢驗(yàn)
4 對(duì)數(shù)回歸
4.1 什么叫對(duì)數(shù)回歸 logit regression
4.1.1 似然率,likehood
4.1.2 從概率到→發(fā)生率
4.1.3 發(fā)生率的對(duì)然對(duì)數(shù)回歸
5 為什么要用對(duì)數(shù)回歸?
5.1 線性回歸的局限性
5.1.1 具體舉個(gè)例子
5.2?什么原因引起的?
5.3?怎么解決??
5.3.1 解決辦法
5.3.2 對(duì)數(shù)回歸的方法 logit regression
5.3.3?概率轉(zhuǎn)化為發(fā)生率后,發(fā)生率的變化不對(duì)稱
6 和機(jī)器學(xué)習(xí)的sigmoid函數(shù)(也叫邏輯函數(shù))的關(guān)系(待完善)
1 先從一個(gè)例題出來(lái),預(yù)期值和現(xiàn)實(shí)值的差異怎么評(píng)價(jià)?
1.1 這樣一個(gè)問(wèn)題
SPSS,還有戲說(shuō)統(tǒng)計(jì)那本數(shù)上都有
一個(gè)關(guān)于員工其實(shí)的數(shù)據(jù)例子,其中假設(shè)有這么一些數(shù)據(jù)
整體員工里,黑人和白人的比例,60:40
經(jīng)理員工里,黑人和白人的比例,4:20那么我們簡(jiǎn)單一看,就知道這兩者比例不一樣,那么這兩者差距夠大嗎?是否可以作為黑人被歧視的證據(jù)之一呢?
1.2 我們的一般分析
- 第1:我們先有現(xiàn)在的這個(gè)現(xiàn)實(shí)數(shù)據(jù)了,但是我們不知道是否合理
- 第2:我們假設(shè)每個(gè)人都是平等的有成為經(jīng)理的可能性。
- 先假設(shè)前提55開,也就是每個(gè)黑人和白人都是50%可能成為經(jīng)理
- 那么假設(shè)員工人數(shù)里,就是合理現(xiàn)狀,往下推論
- 現(xiàn)實(shí)的世界:SUM=24, 經(jīng)理的現(xiàn)狀4/20
- 按50%推測(cè)世界:(60*0.5=30) / (20*0.5=10)=3:1 ,SUM里應(yīng)該分布是18/6
- 實(shí)際的和我們推測(cè)的數(shù)據(jù)差異很大,從而說(shuō)明有問(wèn)題,應(yīng)然和實(shí)然差距太遠(yuǎn)
1.3 用到的關(guān)鍵點(diǎn)1
現(xiàn)實(shí)值,和預(yù)期值的差異,就是關(guān)鍵!
- 現(xiàn)實(shí)值VS預(yù)期值,對(duì)比
- 現(xiàn)實(shí)的世界 / 實(shí)然的世界:
- 按50%推測(cè)世界/ 應(yīng)然的世界:
1.4 但是差距多遠(yuǎn),算是遠(yuǎn)呢?
- 這就需要用到假設(shè)檢驗(yàn)了
- 假設(shè)檢驗(yàn)的方法就是,一般設(shè)定原假設(shè),兩者沒(méi)差異H0。
- 然后給定一個(gè)我們能接受的顯著度比如5%,雙邊檢驗(yàn)。如果我們檢驗(yàn)出來(lái)的值對(duì)應(yīng)的概率,大于5%,我們就接受原接受。
- 如果對(duì)應(yīng)的概率小于我們?cè)O(shè)定的顯著度,那我們認(rèn)為:在H0的假設(shè)下,現(xiàn)實(shí)已經(jīng)發(fā)生的是小概率事件,不應(yīng)該發(fā)生,從而拒絕原假設(shè)。
2 極大似然估計(jì)
2.1 極大似然估計(jì)的目的
上面引出的問(wèn)題:預(yù)期值和現(xiàn)實(shí)值的差異怎么評(píng)價(jià),就是極大似然估計(jì)要解決的問(wèn)題
2.1.1?極大似然估計(jì)要解決什么問(wèn)題?
- 極大似然估計(jì)要解決什么問(wèn)題?:是用來(lái)判斷預(yù)期值和現(xiàn)實(shí)值之前的差距,從而去推測(cè)過(guò)去應(yīng)該是什么樣子!
2.1.2?極大似然估計(jì)的原則:
- 極大似然估計(jì)的原則:現(xiàn)實(shí)一定是對(duì)應(yīng)過(guò)去發(fā)生最大的概率的分支!
- 如果按照H0假設(shè),推測(cè)發(fā)現(xiàn)已經(jīng)存在的現(xiàn)實(shí),并不是最大概率(小于顯著度),那么就拒絕原假設(shè)!
2.2 什么是極大似然估計(jì)?
2.2.1 定義
定義:在現(xiàn)實(shí)已經(jīng)發(fā)生的基礎(chǔ)上,去回溯到過(guò)去,推測(cè)過(guò)去的某個(gè)時(shí)刻,自然量和因變量是什么樣的關(guān)系時(shí),現(xiàn)實(shí)的發(fā)生概率最大?這個(gè)推測(cè)過(guò)程,就是極大似然估計(jì)
簡(jiǎn)單定義:
- 過(guò)去最大概率對(duì)應(yīng)的那個(gè)分支,極有可能就是現(xiàn)實(shí)!
- 現(xiàn)實(shí)就是,過(guò)去發(fā)生的各種可能里概率最大的那種情況!
2.2.2? 似然率,likehood
- 現(xiàn)在的可能性—針對(duì)是未來(lái),概率,probility
- 過(guò)去的可能性—針對(duì)是過(guò)去,似然率,likehood
2.3 如何理解
? ? ?可以認(rèn)為是一個(gè)類似坐上時(shí)光機(jī)去回溯,或者就是思想試驗(yàn)的東西
? ? ?這個(gè)思想試驗(yàn),是一個(gè)模型,就是認(rèn)為現(xiàn)在往回去倒推,過(guò)去自變量和因變量的關(guān)系,現(xiàn)實(shí)應(yīng)該是其中發(fā)生概率最大的可能對(duì)應(yīng)的那個(gè)事件。如果推導(dǎo)不是這也,那就錯(cuò)了。這個(gè)就是極大似然估計(jì)。
2.4 如何落地?具體用什么來(lái)驗(yàn)證極大似然估計(jì)? K2檢驗(yàn)
見(jiàn)下面
3 K2檢驗(yàn) (K^2檢驗(yàn),K^2顯著度檢驗(yàn))
3.1 K2檢驗(yàn)
- chi-square test of independence
- K2檢驗(yàn)和 自由度 高度相關(guān)
- K2就是chi-square,也就是 “ chi 的平方值 ”
3.2 K2值de公式
- K2=Σ(觀察值-預(yù)期值)^2/預(yù)期值
- K2=(O1-E1)^2/E1+(O2-E2)^2/E2+…..+ (On-En)^2/En
3.3 K2值de判斷邏輯
- 需要查表,根據(jù)當(dāng)前的df+概率值的 二維交叉表,可以查到當(dāng)前的K2值,在指定的df下,其發(fā)生的概率大多是多大,如果是小概率的事件,就拒絕。因?yàn)闃O大概率不會(huì)發(fā)生!
- 這也就是極大似然估計(jì)的邏輯。
3.4 具體步驟
- K2值是作為一個(gè)查表數(shù)值
- 去一個(gè) df*概率的二維交叉表里去差K2數(shù)值在那一列!(df決定了行,df和K2共同決定了列!)
- 這樣反查概率。
- 用概率率來(lái)判斷,如果概率很小,證明是小概率事件,發(fā)生可能性很小,拒絕H0假設(shè)!
3.5 K2值表
3.5.1 K2分布表
- 橫軸,行:自由度,DF
- 縱軸,列:概率
- 表中的值,K2值
3.5.2 特點(diǎn)
- 自由度df越大,自由的單元格就更多,表里同樣概率對(duì)應(yīng)的K2值就會(huì)更大
- 反過(guò)來(lái)說(shuō),也就是出現(xiàn)較大K2值的概率就越大
3.6 K2分布的曲線
3.6.1 曲線圖形
- 橫軸表示K2值,x
- 縱軸表示概率值,f(x)
- 不同的曲線表示不同df對(duì)應(yīng)的? K2-概率曲線--也就是圖上的K參數(shù)
- 看經(jīng)典的K2的曲線。
- 自由度比較小的時(shí)候,單調(diào)下降
- 自由度比較大之后就開始接近正態(tài)分布的鐘形曲線了,超過(guò)20接近正態(tài)
- T值檢驗(yàn)T值也和自由度有關(guān)系,但關(guān)系比較松散不用太關(guān)心。
- 因?yàn)門檢驗(yàn)一般檢驗(yàn)連續(xù)變量,連續(xù)變量自由度很容易超過(guò)20,一般不考慮這個(gè)限制。
- 但是K2分布,一定要看自由度DF
- 一般自由度越大的K2曲線,K2的值,均值都會(huì)更大。
3.6.2 特點(diǎn)
可以看到變化
- 1 前面k=1 k=2的事后,是個(gè)完全單調(diào)下降的曲線,從df=3開始就開始接近正態(tài)分布,
- 2?自由度越大,越接近于正態(tài)分布
- 3 在自由度比較大時(shí),比如df大于8,大于20,都可以比較多條曲線,就是同樣的K2值(平行于縱軸的豎線)與對(duì)應(yīng)的不同曲線的相交點(diǎn),DF越大的曲線對(duì)應(yīng)的概率越大。
- 反過(guò)來(lái)說(shuō),就是比較不同的自由度,自由度越大的曲線,對(duì)應(yīng)同樣的K2值,其對(duì)應(yīng)的縱軸的概率會(huì)越大!
3.7 K2檢驗(yàn)有2個(gè)要素
- 自由度
- K2值
3.8 K2檢驗(yàn)的過(guò)程
3.8.1 K2值獨(dú)立檢驗(yàn)
- 先檢驗(yàn),算出來(lái)了確定的K2值的結(jié)果下,來(lái)判斷,
- ?如果自由度小,K2一般越大,越表示發(fā)生的概率小。
- 因而根據(jù)最大似然估計(jì),推測(cè) 現(xiàn)在不可能是小概率發(fā)生,從而用K2檢驗(yàn)拒絕了原來(lái)的假設(shè)。
- 極大似然估計(jì)認(rèn)為,現(xiàn)在一定是 在過(guò)去那個(gè)事件點(diǎn)發(fā)生的概率最大!
4 對(duì)數(shù)回歸
4.1 什么叫對(duì)數(shù)回歸 logit regression
- 對(duì)數(shù)回歸,即發(fā)生率的自然對(duì)數(shù)回歸.
- 是以過(guò)去的可能性/概率為因變量(/結(jié)果)的回歸分析
這里面有很多子概念,下面逐個(gè)拆解
- 過(guò)去的可能性/概率probility=似然率 likehood
- 發(fā)生率
- 發(fā)生率的對(duì)然對(duì)數(shù)回歸
- 為什么要用對(duì)數(shù)回歸
4.1.1 似然率,likehood
- 現(xiàn)在的可能性—針對(duì)是未來(lái),概率,probility
- 過(guò)去的可能性—針對(duì)是過(guò)去,似然率,likehood
4.1.2 從概率到→發(fā)生率
- 我們這里不直接衡量,過(guò)去事情的發(fā)生率α,而是衡量其發(fā)生率
- 發(fā)生率=某個(gè)事件發(fā)生的概率/此事件不發(fā)生的概率
- α/(1-α)
4.1.3 發(fā)生率的對(duì)然對(duì)數(shù)回歸
- 發(fā)生率的對(duì)然對(duì)數(shù)回歸
- Ln(α/(1-α))
- 這個(gè)才是對(duì)數(shù)回歸中,概率的測(cè)量單位: 發(fā)生率的自然對(duì)數(shù)。
5 為什么要用對(duì)數(shù)回歸?
因?yàn)榫€性回歸經(jīng)常會(huì)遇到問(wèn)題
5.1 線性回歸的局限性
有時(shí)候用線性回歸會(huì)出現(xiàn) 負(fù)數(shù)系數(shù),負(fù)數(shù)截距等,而這是邏輯上不可能的情況
- 比如上學(xué)年數(shù)是收入的負(fù)相關(guān)系數(shù),截距也為負(fù)等等
- 還會(huì)出現(xiàn)概率超過(guò)1情況
- 等等邏輯上很怪異的情況
5.1.1 具體舉個(gè)例子
比如現(xiàn)實(shí)中的成績(jī)只有 合格,不合格兩檔次,而且又沒(méi)有具體的分?jǐn)?shù),我們需要分析人們及格的概率,需要怎么做呢?如果我們這么設(shè)計(jì)
5.2?什么原因引起的?
線性回歸遇到問(wèn)題的原因
- 原因1:如果純都是定量數(shù)據(jù)就沒(méi)問(wèn)題,但是一旦里面混入了定性/定類數(shù)據(jù),就有了問(wèn)題
- ? ? ? ? ? ?比如分析模型里有,年齡,成績(jī),這種定比數(shù)據(jù),還有男女,是否經(jīng)理這種定類數(shù)據(jù)都作為自變量時(shí)就有可能出現(xiàn)這樣的情況
- 原因2:本身變量之間的關(guān)系就很復(fù)雜,不適合用線性關(guān)系來(lái)描述
- 原因3:其他
5.3?怎么解決??
5.3.1 解決辦法
1 對(duì)數(shù)回歸是方法之一:用對(duì)數(shù)函數(shù)處理后,結(jié)果還可以用線性表示
2 其他方法
5.3.2 對(duì)數(shù)回歸的方法 logit regression
- 其實(shí)還是用的線性回歸,只是用對(duì)數(shù)函數(shù)做了中轉(zhuǎn)。
- 因?yàn)楸仨毟某汕€回歸
- 如何做曲線回歸,很難
- 而用對(duì)數(shù),可以變換成其他直線回歸
5.3.3?概率轉(zhuǎn)化為發(fā)生率后,發(fā)生率的變化不對(duì)稱
概率轉(zhuǎn)化為發(fā)生率后,發(fā)生率的變化不對(duì)稱。但是發(fā)生率的自然對(duì)數(shù)。Log of ?it =p/(1-p) 卻是對(duì)稱的,正是利用了對(duì)數(shù)函數(shù)的這一效果。
- 概率,轉(zhuǎn)化為發(fā)生率后,發(fā)生率的變化不對(duì)稱。
- 發(fā)生率不對(duì)稱,因?yàn)槭潜嚷?#xff0c;分母分子變化不對(duì)等
- 0.9/0.1=9 ? ? ? ? ? ?變化大,發(fā)生率變化小
- 0.99/0.01=99
- 0.999/0.001=999
- 0.9999/0.0001=9999 ?微量變化小,反而發(fā)生率變化很大。
- 轉(zhuǎn)化為發(fā)生率的自然對(duì)數(shù)。
- Log of ?it =ln(p/(1-p))
- e=2.718
- 所以用自然對(duì)數(shù),變成穩(wěn)定的-4.5~4.5之間了
6 和機(jī)器學(xué)習(xí)的sigmoid函數(shù)(也叫邏輯函數(shù))的關(guān)系(待完善)
【機(jī)器學(xué)習(xí)】邏輯回歸原理(極大似然估計(jì),邏輯函數(shù)Sigmod函數(shù)模型詳解!!!)-騰訊云開發(fā)者社區(qū)-騰訊云在KNN算法中直接可以得出預(yù)測(cè)結(jié)果,但是如果想輸出預(yù)測(cè)結(jié)果,還要輸出預(yù)測(cè)結(jié)果的概率,這時(shí)候就需要使用邏輯回歸解決問(wèn)題。https://cloud.tencent.com/developer/article/2450449https://zhuanlan.zhihu.com/p/696212659
https://zhuanlan.zhihu.com/p/696212659