免費(fèi)家裝設(shè)計(jì)效果圖關(guān)鍵詞首頁(yè)優(yōu)化
全文鏈接:https://tecdat.cn/?p=33514
綜合社會(huì)調(diào)查(GSS)是由國(guó)家輿論研究中心開展的一項(xiàng)觀察性研究。自 1972 年以來(lái),GSS 一直通過收集當(dāng)代社會(huì)的數(shù)據(jù)來(lái)監(jiān)測(cè)社會(huì)學(xué)和態(tài)度趨勢(shì)。其目的是解釋態(tài)度、行為和屬性的趨勢(shì)和常量。從 1972 年到 2004 年,GSS 的目標(biāo)人群是居住在家庭中的成年人(18 歲以上)(點(diǎn)擊文末“閱讀原文”獲取完整代碼數(shù)據(jù))。
相關(guān)視頻
本篇文章旨在幫助客戶使用R語(yǔ)言對(duì)GSS數(shù)據(jù)進(jìn)行自舉法bootstrap統(tǒng)計(jì)推斷、假設(shè)檢驗(yàn)以及探索性數(shù)據(jù)分析可視化。首先,我們將簡(jiǎn)要介紹GSS數(shù)據(jù)集的特點(diǎn)和背景。然后,我們將詳細(xì)說(shuō)明自舉法bootstrap的原理和應(yīng)用,以及如何利用R語(yǔ)言進(jìn)行自舉法bootstrap分析。接著,我們將探討假設(shè)檢驗(yàn)的概念和步驟,并展示如何使用R語(yǔ)言進(jìn)行假設(shè)檢驗(yàn)分析。最后,我們將介紹數(shù)據(jù)可視化的重要性,并演示如何使用R語(yǔ)言生成圖表和可視化結(jié)果。
第 1 部分:數(shù)據(jù)
1994 年以前,全球住戶抽樣調(diào)查幾乎每年進(jìn)行一次(1979 年、1981 年或 1992 年因資金限制除外)。此后,全球抽樣調(diào)查在偶數(shù)年進(jìn)行,采用雙重抽樣設(shè)計(jì)。這主要是通過面對(duì)面的訪談完成的。2002 年,全球抽樣調(diào)查開始使用計(jì)算機(jī)輔助個(gè)人訪談(CAPI)。此外,當(dāng)難以安排與被抽樣調(diào)查對(duì)象進(jìn)行面對(duì)面面談時(shí),也會(huì)通過電話進(jìn)行面談。從 1972 年到 1974 年的調(diào)查中,采用了修正概率抽樣法(整群配額抽樣法)。從 1975 年到 2002 年,全球住戶抽樣調(diào)查采用了完全概率住戶抽樣,使每個(gè)住戶被納入調(diào)查的概率相等。因此,全球住戶抽樣調(diào)查對(duì)住戶一級(jí)的變量進(jìn)行了自加權(quán)。為了保持設(shè)計(jì)的無(wú)偏性,全球住戶抽樣調(diào)查開始采用兩階段子抽樣設(shè)計(jì)。
加載數(shù)據(jù)
load("C:/gs.data")
第2部分:研究問題
我們想了解工作滿意度與受訪者是自營(yíng)職業(yè)者還是為他人工作之間是否存在關(guān)系。我們的分析將側(cè)重于《政府統(tǒng)計(jì)調(diào)查》報(bào)告。為此,我們將回答以下問題:
對(duì)自己的工作感到滿意的個(gè)體經(jīng)營(yíng)者和對(duì)自己的工作感到滿意的個(gè)體經(jīng)營(yíng)者的人口比例是否存在差異?
對(duì)工作非常滿意的自雇人的平均家庭收入(經(jīng)通貨膨脹調(diào)整后)是否高于對(duì)工作非常滿意的為他人工作的人?
對(duì)工作非常滿意的自營(yíng)職業(yè)人和對(duì)工作非常滿意的為他人工作的人的典型家庭收入(如果與平均家庭收入不同)是多少?兩者的典型家庭收入是否存在差異?興趣:就我個(gè)人而言,由于我做出了轉(zhuǎn)行的決定,我一直在想,工作滿意度是取決于就業(yè)狀況,還是僅僅取決于所從事工作的性質(zhì),而不論是為他人工作還是自營(yíng)職業(yè)。此外,出于好奇,我還想知道自營(yíng)職業(yè)者和為他人工作的成年人對(duì)工作真正滿意的平均/典型家庭收入。
第 3 部分:探索性數(shù)據(jù)分析
在本分析中,我們將剔除所有缺失結(jié)果(所有 NA)。為便于分析
gssc <- gss %>%filter(year == "2012") %>%select(satjob, wrkslf, coninc, income06)
使用 summary(gssc) 查看數(shù)據(jù)摘要,使用 str(gssc) 查看數(shù)據(jù)結(jié)構(gòu)。了解變量的組成值(類型和結(jié)構(gòu))將有助于我們進(jìn)行分析。
str(gssc)
summary(gssc)
為了回答我們的研究問題,我們希望了解自營(yíng)職業(yè)受訪者以及為他人工作的受訪者中對(duì)其工作感到滿意(非常滿意和比較滿意)和不滿意(非常不滿意和有點(diǎn)不滿意)的人數(shù)和比例。
首先,我們要找到計(jì)數(shù):
gssc %>% filter(!is.na(wrkslf), !is.na(satjob)) %>% group_by(wrkslf) %>% count(satjob)
然后,我們利用上述結(jié)果創(chuàng)建一個(gè)或然率表。
conting.table <- as.table(conting)
conting.table
我們可以使用鑲嵌圖和柱狀圖來(lái)直觀地顯示上述結(jié)果。
mosaicplot(contingcolor = "skyblue")
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
R語(yǔ)言空氣污染數(shù)據(jù)的地理空間可視化和分析:顆粒物2.5(PM2.5)和空氣質(zhì)量指數(shù)(AQI)
左右滑動(dòng)查看更多
01
02
03
04
gssc %>%filter(!is.na(satjob), !is.na(wrkslf)) %>%ggp.y = element_blank(), axis.ticks.y = element_blank())
超過 50%的個(gè)體經(jīng)營(yíng)者對(duì)自己的工作非常滿意,約 50%的為他人工作的人也對(duì)自己的工作非常滿意。
conting.table %>%prop.taround(3)
自雇受訪者中對(duì)工作非常不滿意的比例很低,僅為 1.3%,而為他人工作的受訪者中有 3.4% 對(duì)工作非常不滿意。
對(duì)工作滿意的自雇人與對(duì)工作滿意的為他人工作的人的比例
gssc <- gssc %>% mutate(lsatjob =
gssc %>% filter(!is.n
我們感興趣的是對(duì)工作滿意的自雇受訪者和為他人工作的受訪者的比例。
gssc %>% filter(!is.na(wrkslf),= "Satisfied")/n())
收入、就業(yè)狀況與工作滿意度之間的關(guān)系
在為他人工作的受訪者和自營(yíng)職業(yè)者中,對(duì)工作感到滿意的人占很大比例。我們將研究收入水平與就業(yè)狀況(自營(yíng)職業(yè)和為他人工作)對(duì)工作滿意度的關(guān)系。正如我們?cè)谘芯繂栴}中指出的,我們的重點(diǎn)是對(duì)工作非常滿意的受訪者的平均家庭收入。
Plot1 <- gssc %>%filter(wrkslf == "Self-Employed", !is.na(satjob), !is.na(income06)) %>%
grid.arrange(Plot1, Plot2, ncol = 2,
從柱狀圖中我們可以看出,對(duì)于兩種就業(yè)狀況的受訪者而言,隨著家庭總收入水平的增加,對(duì)工作非常滿意和一般滿意的受訪者人數(shù)都在增加,只有少數(shù)人對(duì)工作 "有點(diǎn)不滿意"(收入在 11 萬(wàn)美元以上的自雇受訪者除外)。
讓我們更清楚地了解家庭總收入中對(duì)工作非常滿意的自營(yíng)職業(yè)受訪者和為他人工作的受訪者。
gssc %>%filter(satjob == "Very Satis), axis.ticks.x = element_blank())
我們希望評(píng)估對(duì)工作非常滿意的兩種就業(yè)狀況下的平均家庭收入(通貨膨脹調(diào)整后)。為此,我們繪制了直方圖和方框圖,并進(jìn)行了匯總統(tǒng)計(jì),以確定數(shù)據(jù)的形狀、中心和變異性。
請(qǐng)記住,在 155 名自營(yíng)職業(yè)受訪者中,有 97 人對(duì)自己的工作非常滿意;在 1276 名為他人工作的受訪者中,有 626 人對(duì)自己的工作非常滿意(見上文的或然率表)。
p3 <- gssc %>%filter(satjob == "Very Satisfied", wrkslf == "Self-Employed", !is.na(coninc)) %>%
兩個(gè)樣本分布都向右強(qiáng)烈傾斜,典型的家庭收入將是分布的中位數(shù)。IQR 可以最好地解釋這兩個(gè)分布的變異性。
我們繪制一個(gè)方框圖來(lái)直觀顯示樣本的情況:
gssc %>%filter(satjob ==
如前所述,這兩個(gè)分布均呈強(qiáng)烈的右偏態(tài),離群值均高于 150 000 元。
讓我們對(duì)這兩個(gè)樣本進(jìn)行匯總統(tǒng)計(jì)。
gssc %>%filter(satjob == "Very Satisfied",nc, 0.75))
gssc %>%filter(satjob == "Very
對(duì)工作非常滿意的自雇人士的典型家庭收入為 51 705 元,家庭收入變數(shù)為 70 855 元。收入較低的 25% 的人的收入為 21,065 元,75% 的人的收入為 91,920 元。他們的平均家庭收入為 70,911.8元。
gssc %>%filter(satjob
count(wrkslf)
為他人工作的人對(duì)自己的工作非常滿意,其典型家庭收入為 42,130 元,家庭收入變數(shù)為 55,535 元,低于自營(yíng)職業(yè)的人。他們中收入最低的 25%的人的收入為 21 065 元(與自雇者相同),75%的人的收入為 76 600 元,低于自雇者。他們的平均家庭收入為 56 165.08 元。
在下一節(jié)中,我們將了解對(duì)工作非常滿意的個(gè)體經(jīng)營(yíng)者的平均家庭收入是否高于為他人工作且對(duì)工作非常滿意的個(gè)體經(jīng)營(yíng)者的平均家庭收入。我們還將進(jìn)行假設(shè)檢驗(yàn),以估計(jì)他們的典型收入是否存在差異。
第 4 部分:推斷
工作滿意度與就業(yè)狀況之間的關(guān)系(自營(yíng)職業(yè)者和為他人工作的受訪者) 為了回答 "工作滿意度與就業(yè)狀況之間是否存在關(guān)系 "這一問題,我們將對(duì)其獨(dú)立性進(jìn)行卡方檢驗(yàn)(對(duì)于兩個(gè)分類變量,至少有 1 個(gè)大于 2 個(gè)水平的變量)。
我們將定義檢驗(yàn)假設(shè):H0(什么也沒發(fā)生):工作滿意度和就業(yè)狀況是獨(dú)立的。工作滿意度不會(huì)因受訪者的就業(yè)狀況而變化。HA(有事發(fā)生):工作滿意度和就業(yè)狀況互為因果。工作滿意度確實(shí)因受訪者的就業(yè)狀況而異。然后,檢查是否存在以下條件
chisq<- chisq.t
chisq
在 5%的顯著水平上,P 值小于 0.05,因此我們拒絕 H0。因此,數(shù)據(jù)提供了令人信服的證據(jù),表明工作滿意度確實(shí)因受訪者的就業(yè)狀況而異,但我們還需要確認(rèn)所有預(yù)期計(jì)數(shù)是否都有至少 5 個(gè)案例。
#Expected Counts
chisq$expected
對(duì)工作非常不滿意的自雇受訪者的預(yù)期人數(shù)比 5 人少 0.13 人。我們可以忽略它,因?yàn)樗朴?5(顯著性數(shù)字),它只是一個(gè)單元格,而我們的數(shù)據(jù)是一個(gè) 2 乘 4 的表格,我們可以接受上面的卡方檢驗(yàn)結(jié)果,但我們有可能出現(xiàn)類型 1 錯(cuò)誤(拒絕零假設(shè),而實(shí)際上零假設(shè)是真的)。我們可以繼續(xù)使用推論函數(shù)進(jìn)行詳細(xì)的卡方分析,或者為了更確定結(jié)果,將最后兩行折疊為 "不滿意 "行,然后進(jìn)行推論檢驗(yàn),或者直接使用自舉檢驗(yàn)。我們將采用后兩種建議,以確保滿足樣本量條件并減少類型 1 錯(cuò)誤。
bootstrap自舉法
由于上述原因,我們將使用引導(dǎo)法來(lái)檢驗(yàn)我們的假設(shè),即就業(yè)狀況和工作滿意度是相關(guān)的。
gssc %>%alternative = "greater", boot_method = "perc", nsim = 15000)
由于 p 值低于 0.05,我們拒絕零假設(shè),從而證實(shí)了上述皮爾遜卡方檢驗(yàn)的結(jié)論。我們將繼續(xù)使用建議中的另一種方法來(lái)確認(rèn)我們的結(jié)果。
因預(yù)期計(jì)數(shù)小于 5 而折疊單元格
創(chuàng)建一個(gè)新變量 csatjob 并添加到數(shù)據(jù)幀 gssc 中。
gssc <- gssc %>% Satisfied", "Dissatisfied")))
找出觀察到的計(jì)數(shù)。預(yù)期計(jì)數(shù)和或然率表將顯示在我們的 "推斷 "結(jié)果中。
gssc %>% filter(!is.na(wrkslf), !is.na(csatjob)) %>% group_by(wrkslf) %>% count(csatjob)
因此,我們將繼續(xù)進(jìn)行假設(shè)檢驗(yàn),即由于所有條件都已滿足,就業(yè)狀況和工作滿意度在 5%的顯著性水平上存在關(guān)聯(lián)。
gssc %>%filter(!ialternative = "greater")
?p 值小于我們之前的結(jié)果,因此減少了類型 1 錯(cuò)誤的可能性。因此,在 5%的顯著水平上,p 值小于 0.05,所以我們拒絕 H0。因此,數(shù)據(jù)提供了令人信服的證據(jù),證明工作滿意度和就業(yè)狀況如前所述是相互依賴的。
對(duì)工作感到滿意的自營(yíng)職業(yè)者與對(duì)工作感到滿意的為他人工作者之間的差異
我們想了解對(duì)自己的工作感到滿意的自雇人與對(duì)自己的工作感到滿意的為他人工作的人之間的人口比例是否存在差異。請(qǐng)點(diǎn)擊查看上面的數(shù)據(jù)。
從我們的數(shù)據(jù)來(lái)看,91.6% 的自雇受訪者對(duì)自己的工作感到滿意,87.1% 的為他人工作的受訪者對(duì)自己的工作感到滿意。
首先,我們將使用 95% 的置信區(qū)間來(lái)估計(jì)差異。
相關(guān)參數(shù):對(duì)工作感到滿意的所有自雇人與對(duì)工作感到滿意的為他人工作的人之間的差異。
點(diǎn)估計(jì)值:對(duì)工作感到滿意的(抽樣)自雇受訪者與對(duì)工作感到滿意的(抽樣)為他人工作的受訪者之間的差異。
我們檢查是否滿足比較兩個(gè)獨(dú)立比例的條件。
獨(dú)立性:隨機(jī)抽樣:兩個(gè)人群都是隨機(jī)抽樣的;10% 的受訪者對(duì)工作滿意。
gssc %>%filter(!is.na(lsatj
我們有 95% 的把握認(rèn)為,對(duì)工作感到滿意的自雇人的總體比例比對(duì)工作感到滿意的為他人工作的人的總體比例少 0.27% 到多 9.2%。
那么,根據(jù)我們上面計(jì)算出的置信區(qū)間,我們是否應(yīng)該預(yù)期在對(duì)工作感到滿意的廣大自雇人和對(duì)工作感到滿意的為他人工作的人的人口比例之間會(huì)發(fā)現(xiàn)顯著差異(在同等顯著性水平下)?
p自營(yíng)職業(yè)者 - p其他人 = (-0.0027 , 0.092)
H0:p自營(yíng)職業(yè)者 - 其他人
空值包含在區(qū)間內(nèi),因此我們無(wú)法拒絕 H0。因此,上述問題的答案是否定的。從我們的數(shù)據(jù)來(lái)看,對(duì)自己的工作感到滿意的自雇人和對(duì)自己的工作感到滿意的為他人工作的人之間的人口比例沒有顯著差異。
我們將通過在 5%的顯著性水平上進(jìn)行假設(shè)檢驗(yàn)來(lái)確認(rèn)上述結(jié)果,以評(píng)估對(duì)工作滿意的自雇人和對(duì)工作滿意的為他人工作的人之間是否存在差異。
讓我們?yōu)闄z驗(yàn)定義假設(shè):
H0:p自雇=p其他人。
對(duì)工作滿意的自雇人與對(duì)工作滿意的為他人工作的人的人口比例相同。
HA: p= p其他人。
對(duì)工作滿意的自雇人與對(duì)工作滿意的為他人工作的人的人口比例存在差異。
然后,檢查是否滿足進(jìn)行假設(shè)檢驗(yàn)(比較兩個(gè)比例)的推理?xiàng)l件:
獨(dú)立性:組內(nèi)滿足:隨機(jī)抽樣:兩個(gè)人群都是隨機(jī)抽樣;兩個(gè)人群都滿足 10%的條件。因此,對(duì)工作滿意的自雇抽樣受訪者相互獨(dú)立,而對(duì)工作滿意的為他人工作的受訪者(抽樣)也相互獨(dú)立:我們預(yù)計(jì)對(duì)工作滿意的自雇抽樣受訪者和對(duì)工作滿意的為他人工作的受訪者(抽樣)不會(huì)相互依賴。
樣本大小/偏斜:我們需要集合比例來(lái)檢查成功-失敗條件(成功條件- n*p^pool >= 10,失敗條件- n(1 - p^pool) >= 10)。
phat_pool
155 * phat_pool
155 * (1 - phat_pool)
# Someone else: success
1276 * phat_pool
1276 * (1 - phat_pool)
自營(yíng)職業(yè)者和其他人都符合抽樣規(guī)模/偏斜條件。我們可以假定,兩個(gè)比例之差的抽樣分布接近正態(tài)。
因此,我們可以繼續(xù)進(jìn)行假設(shè)檢驗(yàn),因?yàn)樗袟l件都已滿足。
gssc %>%filter(!is.na(lsatjob), !is.na(wrkslf)) %>%inference(y = lsatjob, x = wrkslf, type = "ht", statistic = "proportion", success = "Satisfied", method = "theoretical", alternative = "twosided")
p 值大于 0.05,因此我們無(wú)法拒絕零假設(shè)。數(shù)據(jù)沒有提供強(qiáng)有力的證據(jù)表明,對(duì)工作滿意的個(gè)體經(jīng)營(yíng)者與對(duì)工作滿意的個(gè)體經(jīng)營(yíng)者的人口比例不同。這與置信區(qū)間法得出的結(jié)論一致。
對(duì)工作非常滿意的自雇人和對(duì)工作非常滿意的為他人工作的人的平均和典型家庭收入的差異。
我們想了解對(duì)工作非常滿意的自雇人的平均家庭收入(經(jīng)通脹調(diào)整后)實(shí)際上是否高于為他人工作且對(duì)工作非常滿意的人。請(qǐng)點(diǎn)擊查看以上數(shù)據(jù)。
根據(jù)我們的數(shù)據(jù),對(duì)工作非常滿意的自雇受訪者的平均家庭收入為 70,911.8 元,而為他人工作且對(duì)工作非常滿意的受訪者的平均家庭收入為 56,165.08 元。
首先,我們將使用 90% 的置信區(qū)間來(lái)估計(jì)差異。我們選擇 90% 的置信區(qū)間是為了使我們的研究結(jié)果與假設(shè)檢驗(yàn)一致,而假設(shè)檢驗(yàn)在 5% 的顯著水平下是單側(cè)的。
相關(guān)參數(shù):對(duì)工作非常滿意的所有自雇人士與對(duì)工作非常滿意的為他人工作的自雇人士的平均家庭收入之差。
點(diǎn)估計(jì)值:對(duì)工作非常滿意的抽樣自雇人與對(duì)工作非常滿意的(抽樣)為他人工作的人的平均家庭收入之差。
我們檢查是否滿足比較兩個(gè)獨(dú)立均值的條件。
獨(dú)立性:組內(nèi)滿足:隨機(jī)抽樣:兩個(gè)人群都是隨機(jī)抽樣;兩個(gè)人群都滿足 10% 的條件。因此,對(duì)工作滿意的自雇受訪者和對(duì)工作滿意的為他人工作的受訪者(樣本)的家庭收入是相互獨(dú)立的:兩組之間相互獨(dú)立(非配對(duì))。
樣本大小/偏斜:兩個(gè)分布都向右強(qiáng)烈傾斜;81 和 578 的樣本量使得使用 t 分布對(duì)每個(gè)均值分別建模是合理的。
所有條件都已滿足,因此我們將使用 90% 的置信區(qū)間來(lái)估計(jì)差異。
gssc %>%filter(satjob == "
根據(jù)上述結(jié)果,我們有 90% 的把握認(rèn)為,對(duì)工作非常滿意的廣大自雇人的平均家庭收入(經(jīng)通脹調(diào)整后)比對(duì)工作非常滿意的為他人工作的人的平均家庭收入多 2,635.08 元至 26,858.36 元。
那么,根據(jù)上述我們計(jì)算出的置信區(qū)間,我們是否應(yīng)該預(yù)計(jì)對(duì)工作非常滿意的廣大自雇人和對(duì)工作非常滿意的為他人工作的人的平均家庭收入之間存在顯著差異(在同等顯著性水平下)?
自營(yíng)職業(yè)者 - 為他人工作者 = (2635.0838 , 26858.362)
該值不在置信區(qū)間內(nèi);我們拒絕 H0。因此,上述問題的答案是肯定的。從我們的數(shù)據(jù)來(lái)看,對(duì)工作非常滿意的自雇人的平均家庭收入高于對(duì)工作非常滿意的為他人工作的人的平均家庭收入。
我們將在 5%的顯著性水平上進(jìn)行假設(shè)檢驗(yàn),以評(píng)估對(duì)工作非常滿意的個(gè)體經(jīng)營(yíng)者的平均家庭收入是否高于對(duì)工作非常滿意的為他人工作的個(gè)體經(jīng)營(yíng)者的平均家庭收入,從而證實(shí)上述結(jié)果。
讓我們定義一下檢驗(yàn)假設(shè):
H0:自營(yíng)職業(yè)者 = 為他人工作者。對(duì)工作非常滿意的自雇人的平均家庭收入高于為他人工作且對(duì)工作非常滿意的自雇人。
HA:自營(yíng)職業(yè)者 > 為他人工作者。對(duì)工作非常滿意的自雇人的平均家庭收入高于對(duì)工作非常滿意的為他人工作的人的平均家庭收入。
比較兩個(gè)獨(dú)立均值的推論條件已經(jīng)滿足,因此我們繼續(xù)進(jìn)行假設(shè)檢驗(yàn)。
gssc %>%filter(satjob =
p 值小于 0.05,因此我們拒絕零假設(shè)。數(shù)據(jù)提供了令人信服的證據(jù),表明對(duì)工作非常滿意的個(gè)體經(jīng)營(yíng)者的平均家庭收入高于為他人工作且對(duì)工作非常滿意的個(gè)體經(jīng)營(yíng)者。這與置信區(qū)間法得出的結(jié)論一致。
對(duì)工作非常滿意的自雇人與對(duì)工作非常滿意的為他人工作的人的典型家庭收入對(duì)比
如前所述,典型家庭收入就是收入中位數(shù)。因此,我們將使用 Bootstrap 方法(用于比較中位數(shù))來(lái)估計(jì)對(duì)工作非常滿意的自雇人和對(duì)工作非常滿意的為他人工作的人的典型家庭收入是否存在差異。
根據(jù)我們的數(shù)據(jù),對(duì)工作非常滿意的自雇受訪者的典型家庭收入為 51 705 元,而為他人工作且對(duì)工作非常滿意的受訪者的典型家庭收入為 42 130 元。
我們將用 95%的置信區(qū)間來(lái)估計(jì)典型家庭收入的差異,并用標(biāo)準(zhǔn)誤差法進(jìn)行 5%顯著水平的假設(shè)檢驗(yàn)。如前所述,所有條件均已滿足。
相關(guān)參數(shù):對(duì)工作非常滿意的所有個(gè)體經(jīng)營(yíng)者的典型家庭收入之差
點(diǎn)估計(jì)值:被抽樣調(diào)查的對(duì)工作非常滿意的自雇人的典型家庭收入與被抽樣調(diào)查的對(duì)工作非常滿意的為他人工作的人的典型家庭收入之間的差異。
95% 置信區(qū)間的bootstrap引導(dǎo)法
gssc %>%filter(satjob =nsim = 15000, boot_method = "se")
根據(jù)上述結(jié)果,我們有 95% 的把握認(rèn)為,對(duì)工作非常滿意的廣大自雇人的典型家庭收入(經(jīng)通脹調(diào)整后)比對(duì)工作非常滿意的為他人工作的人少 4,583.73 元,多 23,733.73 元。
那么,根據(jù)上述我們計(jì)算出的置信區(qū)間,我們是否應(yīng)該期望在對(duì)工作非常滿意的廣大自雇人和對(duì)工作非常滿意的為他人工作的人的平均家庭收入之間發(fā)現(xiàn)顯著差異(在同等顯著性水平下)?
Pop_medianself-employed - Pop_mediansomeone else = (-4583.7323 , 23733.7323)
H0:Pop_median-self-employed - Pop_medsomeone else = 0。
0 在置信區(qū)間內(nèi);我們無(wú)法拒絕 H0。因此,上述問題的答案是否定的。從我們的數(shù)據(jù)來(lái)看,對(duì)自己的工作非常滿意的廣大自雇人和對(duì)自己的工作非常滿意的為他人工作的人的典型家庭收入之間沒有顯著差異。
我們將在 5%的顯著性水平上進(jìn)行假設(shè)檢驗(yàn),利用 Bootstrap 方法來(lái)評(píng)估對(duì)工作非常滿意的自雇人和對(duì)工作非常滿意的為他人工作的人的典型家庭收入是否存在差異,從而證實(shí)上述結(jié)果。
讓我們定義一下檢驗(yàn)假設(shè):
H0:Pop_med-self-employed = Pop_medsomeone else。對(duì)工作非常滿意的自雇人與對(duì)工作非常滿意的為他人工作的人的典型家庭收入相同。
HA: Pop_med-self-employed != Pop_medsomeone else。對(duì)工作非常滿意的自雇人與對(duì)工作非常滿意的為他人工作的人的典型家庭收入存在差異。
gssc %>%filter(satjob =, nsim = 15000, boot_method = "se")
p 值大于 0.05,因此我們無(wú)法拒絕零假設(shè)。數(shù)據(jù)沒有提供強(qiáng)有力的證據(jù)表明,對(duì)工作非常滿意的個(gè)體經(jīng)營(yíng)者的典型家庭收入與為他人工作且對(duì)工作非常滿意的個(gè)體經(jīng)營(yíng)者的典型家庭收入有所不同。這與上文(自舉bootstrap法)置信區(qū)間法得出的結(jié)論一致。
第五部分:結(jié)論
經(jīng)過分析和推論,我們對(duì) 2012 年得出以下結(jié)論(如每個(gè)推論后所述):
數(shù)據(jù)提供了令人信服的證據(jù),表明工作滿意度確實(shí)因受訪者的就業(yè)狀況(自營(yíng)職業(yè)和為他人工作)而異。它們之間存在依賴關(guān)系。
數(shù)據(jù)沒有提供有力證據(jù)表明,對(duì)工作滿意的自雇人與對(duì)工作滿意的為他人工作的人的人口比例不同。
數(shù)據(jù)提供了令人信服的證據(jù),證明對(duì)工作非常滿意的自雇人的平均家庭收入高于對(duì)工作非常滿意的為他人工作的人的平均家庭收入。4 數(shù)據(jù)沒有提供有力證據(jù)表明,對(duì)工作非常滿意的自雇人的典型家庭收入與為他人工作且對(duì)工作非常滿意的人的典型家庭收入不同。
參考資料
David M Diez, Christopher D Barr and Mine Cetinkaya-Rundel. "OpenIntro Statistics, Third Edition". (2016).
本文中分析的數(shù)據(jù)分享到會(huì)員群,掃描下面二維碼即可加群!
點(diǎn)擊文末“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《R語(yǔ)言對(duì)綜合社會(huì)調(diào)查GSS數(shù)據(jù)進(jìn)行自舉法bootstrap統(tǒng)計(jì)推斷、假設(shè)檢驗(yàn)、探索性數(shù)據(jù)分析可視化》。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
數(shù)據(jù)分享|PYTHON用決策樹分類預(yù)測(cè)糖尿病和可視化實(shí)例
基于R語(yǔ)言股票市場(chǎng)收益的統(tǒng)計(jì)可視化分析
R語(yǔ)言數(shù)據(jù)可視化分析案例:探索BRFSS數(shù)據(jù)
R語(yǔ)言空氣污染數(shù)據(jù)的地理空間可視化和分析:顆粒物2.5(PM2.5)和空氣質(zhì)量指數(shù)(AQI)
R語(yǔ)言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測(cè)心臟病數(shù)據(jù)和可視化分析
R語(yǔ)言計(jì)算資本資產(chǎn)定價(jià)模型(CAPM)中的Beta值和可視化
R語(yǔ)言主成分分析(PCA)葡萄酒可視化:主成分得分散點(diǎn)圖和載荷圖
R語(yǔ)言時(shí)變向量自回歸(TV-VAR)模型分析時(shí)間序列和可視化
R語(yǔ)言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進(jìn)行回歸、分類和動(dòng)態(tài)可視化
R語(yǔ)言用主成分PCA、?邏輯回歸、決策樹、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
R語(yǔ)言對(duì)布豐投針(蒲豐投針)實(shí)驗(yàn)進(jìn)行模擬和動(dòng)態(tài)可視化生成GIF動(dòng)畫
R語(yǔ)言信用風(fēng)險(xiǎn)回歸模型中交互作用的分析及可視化
R語(yǔ)言生存分析可視化分析
R語(yǔ)言線性回歸和時(shí)間序列分析北京房?jī)r(jià)影響因素可視化案例
R語(yǔ)言用溫度對(duì)城市層次聚類、kmean聚類、主成分分析和Voronoi圖可視化
R語(yǔ)言動(dòng)態(tài)可視化:繪制歷史全球平均溫度的累積動(dòng)態(tài)折線圖動(dòng)畫gif視頻圖
R語(yǔ)言動(dòng)態(tài)圖可視化:如何、創(chuàng)建具有精美動(dòng)畫的圖
R語(yǔ)言中生存分析模型的時(shí)間依賴性ROC曲線可視化