有哪些做問卷調(diào)查賺錢的網(wǎng)站6網(wǎng)絡(luò)營(yíng)銷推廣平臺(tái)
GEO數(shù)據(jù)挖掘
-
數(shù)據(jù)庫:GEO、NHANCE、TCGA、ICGC、CCLE、SEER等
-
數(shù)據(jù)類型:基因表達(dá)芯片、轉(zhuǎn)錄組、單細(xì)胞、突變、甲基化、拷貝數(shù)變異等等
-
常見圖表
表達(dá)矩陣
- 一行為一個(gè)基因,一列為一個(gè)樣本,內(nèi)容是基因表達(dá)量。
熱圖
輸入數(shù)據(jù)是數(shù)值型矩陣/數(shù)據(jù)框
顏色變化表示數(shù)值大小
- Complexheatmap:自行探索~可以定義某些需要標(biāo)注的基因。
散點(diǎn)圖和箱線圖
-
數(shù)據(jù)要求:xy軸分別為一個(gè)連續(xù)型向量和一個(gè)有重復(fù)值的離散型向量(分類向量)
-
數(shù)據(jù)意義:箱線圖會(huì)刪除離群點(diǎn)
-
意義:單個(gè)基因在兩組之間的表達(dá)量差異
矩陣/數(shù)據(jù)框中無法直接添加分組信息,因此需要一個(gè)單獨(dú)向量來說明樣本的分組信息。
火山圖
-
意義:展示多個(gè)基因在兩組間的表達(dá)量差異
-
橫坐標(biāo):FC(Foldchange) 處理組平均值/對(duì)照組平均值;logFC(log2Foldchange)
-
芯片差異分析的起點(diǎn)是一個(gè)取過log的表達(dá)矩陣,如果未取log需要自行l(wèi)og
-
-
理解logFC:log2(X/Y)=log2(x)-log2(y)
- log后的表達(dá)矩陣:表達(dá)量在0-24之間。
- 未log的表達(dá)矩陣,表達(dá)量在0,10,100,1000…
- logFC的正常范圍:個(gè)位數(shù)居多。
-
logFC>0,treat>control,基因表達(dá)量上升;logFC<0,treat<control,基因表達(dá)量下降。通常說的上調(diào)和下調(diào)基因是指表達(dá)量顯著上升下降的基因。
-
logFC常見的閾值:1/2/1.2/1.5/2.2/0.585[log2(1.5)];需要根據(jù)情況取值。
-
縱坐標(biāo):P.Value→log10(P.Value)→-log10(P.Value)
主成分分析
-
PCA:主成分,把多個(gè)指標(biāo)轉(zhuǎn)換成少數(shù)綜合指標(biāo)(主成分)來代表樣本。代表樣本的點(diǎn)在坐標(biāo)軸上距離越遠(yuǎn),說明樣本差異越大。
-
PCA樣本聚類圖:dim1/dim2中數(shù)字不重要(盡量大)。
- 圖上點(diǎn)代表樣本(中心點(diǎn)除外),點(diǎn)與點(diǎn)之間距離代表樣本差異。
- 可以用于“預(yù)實(shí)驗(yàn)”,簡(jiǎn)單看組間是否有差別。
表達(dá)芯片分析思路
表達(dá)數(shù)據(jù)實(shí)驗(yàn)設(shè)計(jì)
- 實(shí)驗(yàn)?zāi)康?#xff1a;通過基因表達(dá)量數(shù)據(jù)的差異分析和富集分析來解釋生物學(xué)現(xiàn)象。
- 設(shè)計(jì)實(shí)驗(yàn)組和對(duì)照組
- 有差異的材料→差異基因→找功能→解釋差異,縮小差異范圍。
基因表達(dá)芯片
探針的表達(dá)量代表基因的表達(dá)量
探針根據(jù)要測(cè)量的基因設(shè)計(jì),是一段與基因互補(bǔ)雜交的短核苷酸序列。探針和序列綁定,不和基因綁定。
數(shù)據(jù)庫介紹
-
GEO數(shù)據(jù)庫
- GEO工具:GEO2R,可以導(dǎo)入代碼進(jìn)入R修改。
-
Series:用戶提交給數(shù)據(jù)庫一個(gè)完整的研究,包括其樣本數(shù)據(jù)(GSM),包含提供研究描述,包括對(duì)數(shù)據(jù)描述并總結(jié)分析(GSE)。
-
GEO數(shù)據(jù)集篩選
表達(dá)芯片數(shù)據(jù):Expression profiling by array
單細(xì)胞/普通轉(zhuǎn)錄組(高通量測(cè)序):Expression profiling by high throughput sequencing
-
GSE界面:GPL(平臺(tái))中看ID和Symbol Gene;GSM(樣本)中看表達(dá)量是否正常、是否需要取log等。
分析思路
- 找數(shù)據(jù),找到GSE編號(hào)
- GEO數(shù)據(jù)庫中檢索
- 文獻(xiàn)中查找GSE編號(hào)
- 下載數(shù)據(jù):表達(dá)矩陣、臨床信息(分組信息)、GPL編號(hào)(探針注釋)
- 網(wǎng)頁中點(diǎn)選下載
- 代碼下載(推薦)
- 數(shù)據(jù)探索:分組之間是否有差異、PCA、熱圖(方差排名靠前的1k個(gè)基因)
- 差異分析和可視化:P值、logFC;火山圖、熱圖
- 富集分析:KEGG、GO
表達(dá)矩陣
以分組為單位說問題,而不是以樣本為單位
代碼分析流程
安裝R包
下載數(shù)據(jù)
library(GEOquery)
eSet = getGEO("GSE7305", destdir = '.', getGPL = F)##探索eSet
class(eSet)
##[1] "list"
length(eSet)
##[1] 1
eSet = eSet[[1]] ##將list解開
class(eSet) ##是一種特殊的數(shù)據(jù)類型,可以從幫助文檔中找到詳細(xì)說明。出自Biobase包
##[1] "ExpressionSet"
##attr(,"package")
##[1] "Biobase"
提取表達(dá)矩陣
exp <- exprs(eSet) ##提取表達(dá)矩陣
dim(exp) ##查看數(shù)據(jù)屬性
range(exp) ##查看數(shù)據(jù)范圍,決定是否需要取log,是否有負(fù)值
##[1] 5.020951 22011.934000 ##這樣的數(shù)據(jù)就需要取log
exp = log2(exp+1) ##取log
boxplot(exp,las = 2) ##檢查數(shù)據(jù)情況
- 有異常樣本:1. 刪掉異常樣本;2. limma包的標(biāo)準(zhǔn)化函數(shù)拉齊。
- 負(fù)值:log后少量負(fù)值可以接受,log前有負(fù)值或一半都是負(fù)值(標(biāo)準(zhǔn)化)棄用。
- 如果logFC在2-4之間,有可能取了2次log
提取臨床信息
pd <- pData(eSet) ##包含分組信息
讓表達(dá)矩陣和臨床信息順序匹配
p = identical(rownames(pd),colnames(exp));p ##判斷是否對(duì)應(yīng)if(!p) { ##如果不對(duì)應(yīng),運(yùn)行s = intersect(rownames(pd),colnames(exp)) exp = exp[,s]pd = pd[s,]
}
提取芯片平臺(tái)編號(hào)
gpl_number <- eSet@annotation;gpl_number ##等同于網(wǎng)頁查找
save(pd,exp,gpl_number,file = "step1output.Rdata") ##保存數(shù)據(jù)
- 原始數(shù)據(jù)處理方法(有時(shí)間再整理吧~):https://mp.weixin.qq.com/s/0g8XkhXM3PndtPd-BUiVgw
引用自生信技能樹課程~ 給小潔老師比心~