常州網站推廣多少錢域名備案查詢
假設檢驗是根據人為設定的顯著水平,對被測對象的總體質量特性進行統(tǒng)計推斷的方法。
如果我們通過假設檢驗否定了零假設,只是說明在設定的顯著水平下,零假設成立的概率比較小,并不是說零假設就肯定不成立。如果零假設事實上是成立的,我們就犯了棄真錯誤,也就是第一類錯誤。這種錯誤出現的可能性,叫做棄真概率。
如果我們通過假設檢驗接受了零假設,也只是因為測試結果和期望的差異并不顯著,并不足以推翻零假設,并不是說零假設就肯定成立。如果零假設事實上并不成立,我們就犯了取偽錯誤,也就是第二類錯誤。這種錯誤出現的可能性,叫做取偽概率。
顯然,如果減小顯著水平,就更不容易推翻零假設,所以棄真概率會變小,但相應的取偽概率就會變大;而增大顯著水平的話,就更容易推翻零假設,取偽概率會變小,但棄真概率就會變大。
那怎么才能同時減小棄真概率和取偽概率呢?一般要在減小顯著水平的同時,增加樣本量。來看一個例子。
很多人以為結核病已經絕跡了,實際上并不是。2023年世衛(wèi)組織發(fā)布的報告說,結核病發(fā)病率高達萬分之5.2,仍然是世界上最常見的傳染病之一。結核病的傳統(tǒng)藥物治愈率是60%。最近有一家藥廠研制了一種新藥,隨機找了50名患者做臨床試驗,治愈率達到了70%。那么,我們能不能下結論說,這種新藥的藥效比傳統(tǒng)藥物更好呢?
我們來做假設檢驗:
-
建立零假設。假設新藥的藥效跟傳統(tǒng)藥沒有差別,治愈率還是60%;
-
設定顯著水平。取α=0.01;
-
計算測試結果的發(fā)生概率。如果新藥的治愈率是60%,就是說每個人被治愈的可能性都是60%,那么50人里有70%的人、也就是35人被治愈的概率是多少呢?可以用二項分布來計算,算出來的概率是0.04;
-
統(tǒng)計推斷。由于測試結果的發(fā)生概率比顯著水平0.01要大,所以我們會接受零假設,結論是新藥跟傳統(tǒng)藥沒有顯著差別。
但是如果我們擴大臨床試驗的規(guī)模,把人數增加到120人,樣本治愈率還是70%,用同樣的方法算下來,概率是0.006,就比顯著水平0.01要小了,于是零假設就被推翻了,結論就會變成“新藥的藥效要明顯好于傳統(tǒng)藥物”。
這兩個結論,哪一個更靠譜呢?很明顯是后者。因為樣本量越大, 樣本就越能代表總體,抽樣誤差就越小。把樣本量增大到120之后,發(fā)現假設檢驗的結論變了,說明之前樣本量是50的時候,我們犯了取偽錯誤。
所以我們說,要想同時減小棄真概率和取偽概率,一般就需要增加樣本量。這跟統(tǒng)計抽樣測試里的結論是類似的。當然樣本量越大,測試成本也越高。
在統(tǒng)計抽樣測試中,我們可以借助操作特性曲線,來描述測試設計方案背后的生產方風險和使用方風險,給測試結論做一個必要的補充。這是統(tǒng)計抽樣測試緩解測試可信性問題的常規(guī)思路。
操作特性曲線
海旭老師,公眾號:重新認識測試設計【統(tǒng)計的思想】統(tǒng)計抽樣測試(二)
其實還有一個辦法,可以達到類似的效果,就是用假設檢驗。
還是來看例子:假設待測批的批量是5000,要求不合格率不超過25%,抽取了305件樣品做檢驗,有92件不合格,樣本的不合格率是30.2%。那么,待測批是不是一個合格批呢?按統(tǒng)計抽樣測試的判斷,結論應該是不合格,但這個結論不一定靠譜,有可能犯棄真錯誤,所以需要用操作特性曲線來補充說明。
如果用假設檢驗,應該怎么做呢?在前面的文章中,我們已經介紹過抽樣分布的一組基本規(guī)律:
① 樣本量越大,樣本均值越趨近于服從正態(tài)分布;
② 樣本均值的數學期望與總體的數學期望相同;
③ 樣本均值的方差等于總體方差除以樣本量。
抽樣分布的基本規(guī)律
海旭老師,公眾號:重新認識測試設計【統(tǒng)計的思想】假設檢驗(一)
如果我們把不合格的樣本記作1,合格的樣本記作0,那樣本均值就等同于樣本不合格率。這樣,上述基本規(guī)律就能應用于統(tǒng)計抽樣測試了,即:
① 當樣本量n很大的時候,樣本不合格率近似服從正態(tài)分布;
② 樣本不合格率的數學期望,等于整批的不合格率p;
③ 樣本不合格率的方差,等于p(1-p)/n。因為整批服從伯努利分布,方差是p(1-p)。
基于此,我們就可以做假設檢驗了:
-
建立零假設。假設整批的不合格率是25%,是一個合格批;
-
設定顯著水平。這里取α=0.05;
-
計算測試結果發(fā)生的概率。既然樣本不合格率服從正態(tài)分布,均值是25%,方差是:
那么樣本不合格率達到30.2%以上的概率,就是:
-
統(tǒng)計推斷。測試結果發(fā)生的概率比顯著水平小,所以否定零假設。
最終的測試結論是,在顯著水平0.05的概率意義下,待測批不合格??梢钥吹?#xff0c;假設檢驗是從顯著水平的角度來補充測試結論的,同樣能緩解測試可信性問題。