威海做網(wǎng)站的谷歌搜索引擎優(yōu)化seo
設(shè)置 Seurat 對(duì)象
在本教程[1]中,我們將分析 10X Genomics 免費(fèi)提供的外周血單核細(xì)胞 (PBMC) 數(shù)據(jù)集。在 Illumina NextSeq 500 上對(duì) 2,700 個(gè)單細(xì)胞進(jìn)行了測(cè)序。可以在此處[2]找到原始數(shù)據(jù)。
我們首先讀取數(shù)據(jù)。 Read10X() 函數(shù)從 10X 讀取 cellranger 管道的輸出,返回唯一的分子識(shí)別 (UMI) 計(jì)數(shù)矩陣。該矩陣中的值表示在每個(gè)細(xì)胞(列)中檢測(cè)到的每個(gè)特征(即基因;行)的分子數(shù)量。請(qǐng)注意,較新版本的 cellranger 現(xiàn)在也使用 h5 文件格式進(jìn)行輸出,可以使用 Seurat 中的 Read10X_h5() 函數(shù)讀取該格式。
接下來(lái)我們使用計(jì)數(shù)矩陣來(lái)創(chuàng)建 Seurat 對(duì)象。該對(duì)象充當(dāng)容器,其中包含單細(xì)胞數(shù)據(jù)集的數(shù)據(jù)(如計(jì)數(shù)矩陣)和分析(如 PCA 或聚類結(jié)果)。例如,在 Seurat v5 中,計(jì)數(shù)矩陣存儲(chǔ)在 pbmc[["RNA"]]$counts 中。
library(dplyr)
library(Seurat)
library(patchwork)
#?Load?the?PBMC?dataset
pbmc.data?<-?Read10X(data.dir?=?"/brahms/mollag/practice/filtered_gene_bc_matrices/hg19/")
#?Initialize?the?Seurat?object?with?the?raw?(non-normalized?data).
pbmc?<-?CreateSeuratObject(counts?=?pbmc.data,?project?=?"pbmc3k",?min.cells?=?3,?min.features?=?200)
pbmc
-
輸出
##?An?object?of?class?Seurat?
##?13714?features?across?2700?samples?within?1?assay?
##?Active?assay:?RNA?(13714?features,?0?variable?features)
##??1?layer?present:?counts
-
示例
#?Lets?examine?a?few?genes?in?the?first?thirty?cells
pbmc.data[c("CD3D",?"TCL1A",?"MS4A1"),?1:30]
#?輸出
##?3?x?30?sparse?Matrix?of?class?"dgCMatrix"
##????????????????????????????????????????????????????????????????????
##?CD3D??4?.?10?.?.?1?2?3?1?.?.?2?7?1?.?.?1?3?.?2??3?.?.?.?.?.?3?4?1?5
##?TCL1A?.?.??.?.?.?.?.?.?1?.?.?.?.?.?.?.?.?.?.?.??.?1?.?.?.?.?.?.?.?.
##?MS4A1?.?6??.?.?.?.?.?.?1?1?1?.?.?.?.?.?.?.?.?.?36?1?2?.?.?2?.?.?.?.
矩陣中.
的值代表 0(未檢測(cè)到分子)。由于 scRNA-seq 矩陣中的大多數(shù)值都是 0,因此 Seurat 只要有可能就使用稀疏矩陣表示。這會(huì)顯著節(jié)省 Drop-seq/inDrop/10x 數(shù)據(jù)的內(nèi)存和速度。
dense.size?<-?object.size(as.matrix(pbmc.data))
dense.size
##?709591472?bytes
sparse.size?<-?object.size(pbmc.data)
sparse.size
##?29905192?bytes
dense.size/sparse.size
##?23.7?bytes
預(yù)處理
以下步驟涵蓋 Seurat 中 scRNA-seq 數(shù)據(jù)的標(biāo)準(zhǔn)預(yù)處理工作流程。這些基于 QC 指標(biāo)、數(shù)據(jù)標(biāo)準(zhǔn)化和縮放以及高度可變特征的檢測(cè)的細(xì)胞選擇和過(guò)濾。
Seurat 允許您輕松探索 QC 指標(biāo)并根據(jù)任何用戶定義的標(biāo)準(zhǔn)過(guò)濾細(xì)胞。常用的一些 QC 指標(biāo)包括:
-
每個(gè)細(xì)胞中檢測(cè)到的唯一(unique)基因的數(shù)量 -
低質(zhì)量的細(xì)胞或空液滴通常含有很少的基因 -
細(xì)胞雙聯(lián)體或多聯(lián)體可能表現(xiàn)出異常高的基因計(jì)數(shù)
-
-
同樣,細(xì)胞內(nèi)檢測(cè)到的分子總數(shù)(與唯一(unique)基因密切相關(guān)) -
映射到線粒體基因組的讀數(shù)百分比 -
低質(zhì)量/垂死細(xì)胞通常表現(xiàn)出廣泛的線粒體污染 -
我們使用 PercentageFeatureSet() 函數(shù)計(jì)算線粒體 QC 指標(biāo),該函數(shù)計(jì)算源自一組特征的計(jì)數(shù)百分比 -
我們使用以 MT- 開(kāi)頭的所有基因的集合作為線粒體基因的集合
-
#?The?[[?operator?can?add?columns?to?object?metadata.?This?is?a?great?place?to?stash?QC?stats
pbmc[["percent.mt"]]?<-?PercentageFeatureSet(pbmc,?pattern?=?"^MT-")
-
Seurat 中的 QC 指標(biāo)存儲(chǔ)在哪里?
在下面的示例中,我們將 QC 指標(biāo)可視化,并使用它們來(lái)過(guò)濾細(xì)胞。
我們過(guò)濾具有唯一特征計(jì)數(shù)超過(guò) 2,500 或少于 200 的細(xì)胞;我們過(guò)濾線粒體計(jì)數(shù) >5% 的細(xì)胞
#?Visualize?QC?metrics?as?a?violin?plot
VlnPlot(pbmc,?features?=?c("nFeature_RNA",?"nCount_RNA",?"percent.mt"),?ncol?=?3)

#?FeatureScatter?is?typically?used?to?visualize?feature-feature?relationships,?but?can?be?used
#?for?anything?calculated?by?the?object,?i.e.?columns?in?object?metadata,?PC?scores?etc.
plot1?<-?FeatureScatter(pbmc,?feature1?=?"nCount_RNA",?feature2?=?"percent.mt")
plot2?<-?FeatureScatter(pbmc,?feature1?=?"nCount_RNA",?feature2?=?"nFeature_RNA")
plot1?+?plot2

pbmc?<-?subset(pbmc,?subset?=?nFeature_RNA?>?200?&?nFeature_RNA?<?2500?&?percent.mt?<?5)
未完待續(xù),持續(xù)關(guān)注!
Source: https://zenghensatijalab.org/seurat/articles/pbmc3k_tutorial
[2]data: https://cf.10xgenomics.com/samples/cell/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz
本文由 mdnice 多平臺(tái)發(fā)布