網(wǎng)站建設(shè)招標(biāo)評分表海外seo培訓(xùn)
數(shù)據(jù)分析spss應(yīng)急考試
前言
-
單項(xiàng)選擇 15(項(xiàng))*2(分)=30
判斷題 10*1 = 10
計(jì)算題 2*10
-
案例分析題目(考實(shí)驗(yàn)內(nèi)容) 總四十分,分值不等
- 老師重點(diǎn)強(qiáng)調(diào)了
- 回歸分析
- 因子分析
- 方差分析
- 參數(shù)、非參數(shù)檢驗(yàn)
- 2獨(dú)立樣本的非參數(shù)檢驗(yàn)應(yīng)該用什么方法
- 多獨(dú)立樣本的應(yīng)該用什么方法
- 配對樣本的應(yīng)該用什么方法
- 買會?,vr?,中位數(shù)……適用于那些數(shù)據(jù)
- 抽樣
- 給你一個案例,你可不可以寫出抽樣思路
- 先是整群還是先是分層
- 簡單隨機(jī)抽樣
- 給你一個案例,你可不可以寫出抽樣思路
-
spss的logistic回歸不考
-
判別分析不考
-
spss的線性回歸分析中的曲線分析也不考
軟件分析
- 你的spss的格式 它能讀那些的 考一些選擇判斷
相關(guān)分析
- 相關(guān)分析它的一個范圍, 多少是正相關(guān)、多少是負(fù)相關(guān),當(dāng)相關(guān)系數(shù)是0的時候表示沒有線性相關(guān)性質(zhì)
聚類分析、因子分析是案例分析的重點(diǎn)
第四章補(bǔ)充講了抽樣
spss軟件概述
利用spss進(jìn)行數(shù)據(jù)分析一般經(jīng)過:
建立數(shù)據(jù)文件、加工整理數(shù)據(jù)、分析數(shù)據(jù)、解釋分析結(jié)果四個階段
spss運(yùn)行方式菜單式進(jìn)行操作
spss數(shù)據(jù)文件建立和管理
spss的數(shù)據(jù)文件是一個有結(jié)構(gòu)的,包含了變量視圖和數(shù)據(jù)視圖
唯一標(biāo)識變量的是變量名
變量名標(biāo)簽
- 是對變量名做一個解釋說明
變量值標(biāo)簽
- 對變量所取值的一些解釋說明,增強(qiáng)分析結(jié)果的 可視性
比如在年紀(jì)錄入時:用 1 表示 大一年紀(jì)、用2表示大二年紀(jì)
計(jì)量尺度(Measurement)
-
數(shù)值型(定距)
-
定序型(有固有大小或高低順序)
-
定類型(無固有大小或高低順序,分類)
變量測量包含了標(biāo)度測量、有序測量與名義測量三種
其中標(biāo)度測量對應(yīng)定量變量,有序測量對應(yīng)定序,名義測量對應(yīng)定類變量。
數(shù)據(jù)的錄入
一行就是一個個案
讀取文本格式數(shù)據(jù)文件有讀取固定格式和自由格式兩種,自由格式必須要有分隔符
spss數(shù)據(jù)的保存
spss 數(shù)據(jù)默認(rèn)后綴 .savspss結(jié)果文件默認(rèn)后綴是 .spv
讀取其他格式的數(shù)據(jù)文件
? .sav .zsav .sys .port .bdf .dat .txt .csv
? 不能讀.ppt
數(shù)據(jù)文件的合并
* 恒向合并
* 縱向合并
* 按照關(guān)鍵字關(guān)鍵字的升序排序合并用 橫向合并
數(shù)據(jù)預(yù)處理
數(shù)據(jù)的排序
排序的目的是找到數(shù)據(jù)中最大值&最小值,進(jìn)而計(jì)算數(shù)據(jù)的全距和離散程度
排序分為:單值排序 多重排序
- 那些屬于定量變量
- 數(shù)值型的比如:年齡、合格率、身高、工資
- 那些屬于定性變量
- 比如:專業(yè)、性別、職稱
? 個案排秩和變量排序作用是不一樣的
? 想知道某一個觀測在已知條件下觀測的位置,而又不希望打破數(shù)據(jù)現(xiàn)有的排序,可以用個案排秩
變量的計(jì)算
——通過現(xiàn)有變量得到新的變量
變量計(jì)算是針對所有個案的,每個個案都有自己的計(jì)算結(jié)果。
? 重新編碼為相同的變量
? 重新編碼為不同的變量
為了某個數(shù)據(jù)只在一個組中出現(xiàn)一次、編碼和分區(qū) 都有一個區(qū)間
數(shù)據(jù)選取的基本方式
1. 選取全部數(shù)據(jù)2. 按指定條件選取3. 隨機(jī)抽樣:(近似抽樣、精確抽樣) * 精確抽樣:用戶給定兩個參數(shù):希望選取的個案數(shù)、在前幾個個案中選擇
4. 選取某區(qū)域樣本* 選取指定范圍內(nèi)的所有個案,適用于 **時間序列**
5. 使用過濾個案,對**使用過濾個案,是對缺失值進(jìn)行一個過濾**
對于計(jì)數(shù)的數(shù)據(jù)分析要進(jìn)行加權(quán)的處理
統(tǒng)計(jì)學(xué)依據(jù)數(shù)據(jù)的計(jì)量尺度將數(shù)據(jù)分成三類**:定量、定序、定類**
? 兩大類:定量(定距、定比)、定性(定序、定類)
行列互換是數(shù)據(jù)的轉(zhuǎn)置
spss基本統(tǒng)計(jì)分析
刻畫度量集中趨勢的有
* **均值**
* **中位數(shù)**
* **眾數(shù)**
? 集中趨勢:數(shù)據(jù)想中心值靠攏的程度
刻畫離散趨勢有
- 標(biāo)準(zhǔn)差
- 極差
- 方差
? 離散趨勢:數(shù)據(jù)遠(yuǎn)離中心值的程度
度量分布形態(tài)有
- 偏度
- 于正態(tài)分布而言 小于0 左偏,大于 0 右偏
- 分度
- 大于0 (有時候和3做出比較、看公式中有無做減3的處理)比正太分布陡峭,小于 0 比正態(tài)分布要平緩
? 分布形態(tài):描述數(shù)據(jù)陡峭程度、是否對稱等
頻數(shù)分析
——用圖標(biāo)的形式對數(shù)據(jù)做一個簡單的描述
頻數(shù):是指變量落在某個區(qū)域的次數(shù)
頻數(shù)分析中出現(xiàn)的圖表有哪些:條形圖、餅圖、直方圖(可以通過直方圖看,分布是否呈現(xiàn)正態(tài)分布)
- 條形圖適用于–定序、定類變量分析
- 餅圖,研究占比
- 直方圖,適用于–定距型變量分析
變量的計(jì)算尺度
定類(比如表示性別):只能計(jì)次
定序(一件產(chǎn)品的滿意度,如果用1表示非常滿意,2表示比較滿意,3表示中等滿意,4表示比較不滿意,5表示非常不滿意):計(jì)次、排序
定距(比如溫度之類的):計(jì)次、排序、加減
定比(體重):計(jì)次、排序、加減、乘除
下列哪些選項(xiàng)是不屬于頻數(shù)分析中統(tǒng)計(jì)量的 卡方
- 百分位數(shù)
- 集中趨勢
- 離散趨勢
- 分布形態(tài)
- 卡方
交叉分組下的頻數(shù)分析
——針對多變量
當(dāng)我們要研究變量≥2\geq 2≥2個變量時使用交叉分組
邊緣分布
上表中的年齡變量稱為行變量(Row),血壓稱為列變量(Column)。行標(biāo)題和列標(biāo)題分別是兩個變量的變量值(或分組值)。表格中間是觀測頻數(shù)和各種百分比。474人中,低血壓、正常、高血壓的人數(shù)分別為95、232、147,構(gòu)成的分布稱為交叉列聯(lián)表的列邊緣分布;30歲以下、30-49歲、50歲以上的人數(shù)分別為98、179、197,構(gòu)成的分布稱為交叉列聯(lián)表的行邊緣分布;98個低血壓的人中各年齡段的人數(shù)分別是27,37,31,這些頻數(shù)構(gòu)成的分布稱為條件分布,即在行變量(列變量)取值條件下的列變量(行變量)的分布。
交叉連表的卡方檢驗(yàn)
步驟:
- 建立原假設(shè)
- 假設(shè)行變量與列變量獨(dú)立
- 選擇和計(jì)算檢驗(yàn)統(tǒng)計(jì)量
- 計(jì)算觀測值和臨界值
- 結(jié)論和決策
- 利用卡方統(tǒng)計(jì)量的這個值和臨界值進(jìn)行比較
- 觀測值 >>>臨界值,實(shí)際分布與期望分布過大拒絕原假設(shè)
- <,反之同意
卡方統(tǒng)計(jì)量觀測值的大小取決于兩個因素:第一:列聯(lián)表的單元格子數(shù);第二:觀測頻數(shù)與期望頻數(shù)的總差值。
多選項(xiàng)分析
? 對應(yīng)于多選項(xiàng)分析之前要進(jìn)行分解,分解有 多選項(xiàng)二分法(變量取值 0 or 1 )和多選項(xiàng)分類法(對于多選項(xiàng)問題可以選幾個答案)
抽樣
應(yīng)該會考一道分析題:
多階段抽樣(重要、一定要理解各種抽樣意義)
要做這道題你首先要理解不同抽樣的意義:
概率抽樣
-
簡單隨機(jī)抽樣:從總體N個單位中隨機(jī)地抽取n個單位作為樣本 ,每個單位入抽樣本的概率是相等的
-
分層抽樣:將抽樣單位按某種特征或某種規(guī)則劃分為 不同的層,然后從不同的層中獨(dú)立、隨機(jī) 地抽取樣本
-
整群抽樣:將總體中若干個單位合并為組(群),抽樣時 直接抽取群,然后對中選群中的所有單位全部實(shí)施調(diào)查
- 例子:一個年紀(jì) 1000人,要抽樣500個人他們的數(shù)學(xué)成績進(jìn)行調(diào)查
將1000人分為20個班
因此我們只需選出10個班進(jìn)行調(diào)查
- 例子:一個年紀(jì) 1000人,要抽樣500個人他們的數(shù)學(xué)成績進(jìn)行調(diào)查
-
系統(tǒng)抽樣:.將總體中的所有單位(抽樣單位)按一定順 序排列,在規(guī)定的范圍內(nèi)隨機(jī)地抽取一個 單位作為初始單位,然后按事先規(guī)定好的 規(guī)則確定其它樣本單位
- 先從數(shù)字1到k之間隨機(jī)抽取一個數(shù)字r作為 初始單位,以后依次取r+k,r+2k…等單位
例題
抽樣分布
正態(tài)分布和均值、標(biāo)準(zhǔn)差有關(guān)
三大分布-和自由度有關(guān)
- X2\mathcal{X}^2X2分布
- fff分布
- ttt分布
中心極限定理
設(shè)從均值為μ\muμ,方差為σ2\sigma^2σ2的一個任意總 體中抽取容量為n的樣本,當(dāng)n充分大時,樣本均值的抽樣分布近似服從均值為μ\muμ、方差為σ2/n\sigma^2/nσ2/n的正態(tài)分布
對于方差和均值(重要)
標(biāo)準(zhǔn)差就是方差開根號
卡方分布(服從行-1*列-1的自由度)、t分布、f分布是和自由度有關(guān)的
正態(tài)分布和自由度是無關(guān)的
判斷數(shù)據(jù)是否是正態(tài)分布用 p-p圖(概率-概率圖) Q-Q圖(分位數(shù)-分位數(shù)圖),帶有正態(tài)曲線的直方圖去看
正態(tài)分布分成三類我們利用嚴(yán)格意義上的正態(tài)分布(通過KS、KW檢驗(yàn)),近似正態(tài)(KS、KW檢驗(yàn)的沒有通過、但沒有嚴(yán)重的偏態(tài))
參數(shù)檢驗(yàn)
假設(shè)檢驗(yàn)
步驟
-
確定h0h_0h0? 假設(shè)和備擇假設(shè)$ h_1$
- 單樣本t檢驗(yàn):驗(yàn)一個樣本平均數(shù)與一個已知的總體平均數(shù)的差異是否顯著,h0h_0h0?不顯著,h1h_1h1?相反
- 兩個獨(dú)立樣本t檢驗(yàn):檢驗(yàn)兩個樣本平均數(shù)與其各自所代表的總體的差異是否顯著,h0h_0h0?不顯著,h1h_1h1?相反
- 兩個配對樣本t檢驗(yàn):可視為單樣本t檢驗(yàn)的擴(kuò)展,不過檢驗(yàn)的對象由一群來自常態(tài)分配獨(dú)立樣本更改為二群配對樣本之觀測值之差
-
選擇檢驗(yàn)統(tǒng)計(jì)量、在 h0條件下確定檢驗(yàn)統(tǒng)計(jì)量的分布
- 使用t檢驗(yàn),就假設(shè)服從t分布
- 算出概率值,選取顯著性水平α\alphaα
-
如果概率值和a進(jìn)行比較 概率值 >α\alphaα,不拒絕h0,概率值<α\alphaα,拒絕
假設(shè)檢驗(yàn)中的兩類錯誤
- 第一類(棄真錯誤)
- 原假設(shè)為真時拒絕原假設(shè)
- 第一類錯誤的概率為α\alphaα(顯著性水平)
- 第二類錯誤(取偽錯誤)
- 原假設(shè)為假時接受原假設(shè)
- 第二類錯誤的概率為β\betaβ
單樣本t檢驗(yàn):數(shù)據(jù)總體要近似服從正態(tài)分布
兩獨(dú)立樣本t檢驗(yàn):數(shù)據(jù)總體要近似服從正態(tài)分布 + 兩個樣本相互獨(dú)立
兩配對樣本t檢驗(yàn):數(shù)據(jù)總體要近似服從正態(tài)分布 + 兩個配對樣本
? 比如:你要求減肥茶有沒有用你要得到
- 喝減肥茶之前的樣本和減肥茶之后的樣本
方差分析
方差分析是一個假設(shè)參數(shù)檢驗(yàn)的范疇,是研究是均值的差異,它有兩個前提:樣本的總體正態(tài)或近似正態(tài)、各總體的方差應(yīng)該相同
方差分析研究的并不是方差,而是均值的變異,即推斷多個總體的均數(shù)是否有差別。它是一個多獨(dú)立樣本檢驗(yàn)
不管是單因素還是多因素,它其實(shí)研究的是一個或多個控制變量對一個觀測變量的一個影響(我們的觀測變量只有一個)
觀測變量 是一個連續(xù)性的數(shù)值性變量
這個控制變量是一個分類型的變量
(我們把不同的分類稱之為不同的水平)
單因素,多因素、協(xié)方差分析它選擇的統(tǒng)計(jì)量是什么F統(tǒng)計(jì)量
檢驗(yàn)統(tǒng)計(jì)量:總變差=組間差異+組內(nèi)差異
總平方和 | 自由度 | 均方 | F | ||
---|---|---|---|---|---|
組間 | A | k-1 | A/(k-1) | (A/(k?1))÷B/(n?k)(A/(k-1)) \div B/(n-k)(A/(k?1))÷B/(n?k) | |
組內(nèi) | B | n(總的個案數(shù))-k | B/(n-k) | 無 | |
總計(jì) | A+B | n-1 | 無 | 無 |
進(jìn)行決策如果F的概率P >α\alphaα,說明控制變量在不同水平下對觀測變量不產(chǎn)生了顯著影響,概率值<α\alphaα,說明控制變量在不同情況下產(chǎn)生了顯著影響
非參數(shù)檢驗(yàn)
肯定會考案例分析
參數(shù)檢驗(yàn) VSVSVS 非參數(shù)檢驗(yàn)
異
參數(shù)檢驗(yàn) | 非參數(shù)檢驗(yàn) |
---|---|
數(shù)據(jù)總體要近似服從正態(tài)分布 | 所有數(shù)據(jù)都可以用 |
靈敏度更高 | 靈敏度比參數(shù)檢驗(yàn)低 |
參數(shù)檢驗(yàn)要利用到總體的信息(總體分布、總體的一些參數(shù)特征如方差),以總體分布和樣本信息對總體參數(shù)作出推斷 | 非參數(shù)檢驗(yàn)不需要利用總體的信息(總體分布、總體的一些參數(shù)特征如方差),以樣本信息對總體分布作出推斷。 |
同
都是統(tǒng)計(jì)分析方法的重要組成部分
單樣本非參數(shù)檢驗(yàn)
二項(xiàng)檢驗(yàn) 用來檢驗(yàn)是否符合二項(xiàng)分布 適用于離散型變量,要求檢驗(yàn)變量必須為數(shù)值型的二元變量。
卡方檢驗(yàn) 用來檢驗(yàn)總分布和已知分布是否有顯著差異 適用于分類變量的統(tǒng)計(jì)推斷
K-S檢驗(yàn) 推斷總體是否服從某個理論分布 適用于探索連續(xù)隨機(jī)變量的分布情況
變量值的隨機(jī)性檢驗(yàn) 利用樣布數(shù)據(jù)對總體可能出現(xiàn)的隨機(jī)值進(jìn)行檢驗(yàn)
以上都用于單樣本非參數(shù)
兩獨(dú)立樣本非參數(shù)檢驗(yàn)
-
曼-惠特尼U檢驗(yàn)(Mann-Whitney U):平均秩檢驗(yàn)
- 大樣本、小樣本情況如何分析
-
k-s檢驗(yàn)
-
游程檢驗(yàn)(Wald-Wolfowitz runs)
多獨(dú)立樣本非參數(shù)檢驗(yàn)
- 中位數(shù)檢驗(yàn)
兩配對樣本非參數(shù)檢驗(yàn)
- 變化顯著性檢驗(yàn)(McNemar)
- 符號檢驗(yàn)
- 符號平均秩檢驗(yàn)(wilcoxon)
多配對樣本非參數(shù)檢驗(yàn)
- Friedman檢驗(yàn)
理解多獨(dú)立樣本、兩配對樣本和多配對樣本非參數(shù)檢驗(yàn)方法的設(shè)計(jì)思想,重點(diǎn)掌握K-W檢驗(yàn)方法、Wilcon符號秩檢驗(yàn)和Friedman檢驗(yàn)的基本原理及使用場合,熟練掌握數(shù)據(jù)組織方式和具體操作
理解SPSS單樣本非參數(shù)檢驗(yàn)方法的設(shè)計(jì)思想,重點(diǎn)掌握卡方檢驗(yàn)和K-S檢驗(yàn)的基本原理和計(jì)算過程,并熟練掌握其具體操作
非常有可能是是計(jì)算題
相關(guān)分析
相關(guān)變量間的關(guān)系一般分為兩種:平行關(guān)系、因果關(guān)系。統(tǒng)計(jì)學(xué)上采用相關(guān)分析研究呈平行關(guān)系的相關(guān)變量之間的關(guān)系。
散點(diǎn)圖有正相關(guān)和負(fù)相關(guān)
相關(guān)系數(shù)有:Spearman相關(guān)系數(shù)(計(jì)算數(shù)值型)、Kendall相關(guān)系數(shù)(計(jì)算分類型)、簡單線性相關(guān)系數(shù)(Pearson)(計(jì)算分類型)
相關(guān)系數(shù)越接近1正相關(guān)性越強(qiáng)、越接近-1負(fù)相關(guān)性越強(qiáng)、等于0無線無線性相關(guān)。但也有可能有其他的關(guān)系,有曲線的等等。
因子分析
判斷適不適合因子分析:
-
相關(guān)系數(shù)矩陣中相關(guān)系數(shù)>0.3
-
KMO >0.6
-
巴特利特球形檢驗(yàn):給出的原假設(shè)是這個相關(guān)系數(shù)矩陣,它是一個單位陣
提取因子,提取的是否有效。看你的這個因子能不能解釋原有變量的大部分變差,若干個因子提取的較為合理,最終因子和因子之間的這個相關(guān)系數(shù)矩陣應(yīng)該是一個單位值。
也就是說兩個因子之間相關(guān)系數(shù)是為零的,就不相關(guān)。
聚類分析
聚類分析無監(jiān)督、無先驗(yàn)知識
層次聚類(系統(tǒng)聚類)
一種是R型、針對個案
一種是Q型、針對變量
把變量做一個聚類,就是一個降維
spss默認(rèn)距離是組間平局連鎖距離;最短距離、最近距離關(guān)鍵看有木有加上類中個體與個體之間的距離
層次聚類中可以形成形成一個范圍內(nèi)的解,但是K均值聚類一旦K確定就只能聚成K類
spss的判別分析
Fisher判別法、貝葉斯判別法用于分類、有先驗(yàn)知識、有監(jiān)督