使用scanpy进行高可变基因的筛选

作者：童蒙
编辑：angelica

代码解读scanpy又来啦，不要错过～～今天我们讲的是：高可变基因的筛选。

函数

scanpy.pp.highly_variable_genes

功能

取出高可变基因，默认使用log的数据，当使用flavor=seurat_v3的时候，采用count data。

flavor参数可以选择是使用Seurat，Cell ranger还是seurat v3的算法。

Seurat and Cellranger中，使用的是dispersion-based方法，获得归一化的方差。先对基因按照表达量平均值进行分bin，然后计算落在每个bin的基因的离散度（dispersion）的均值和SD，最终获得归一化的dispersion。对于每个表达量的bin，选择不同的高可变表达基因。

而Seurat3的算法，计算每个基因的方差进行归一化。首先对数据在规范化标准偏差下（a regularized standard deviation）进行标准化（使用z标准化），之后计算每个基因的归一化的方差，并且进行排序，获得高可变基因。

重要参数

adata：输入的数据，每行是一个细胞，每列是一个特征
layer：使用的是哪一个layer
n_top_genes：如果是使用seurate_v3的方法，那么需要指定该参数。
min_mean：默认0.0125 ；max_mean：默认是3 ；min_disp: 默认0.5， max_disp: 默认是inf。如果指定了n_top_genes , 这个和其他所有mean和disp参数都会无效，因此设置了 flavor='seurat_v3' 该参数无用。
span：默认是0.3；当flavor=seurat_v3的时候，用loess模型来估计variance的数据的比例。
n_bins : 默认是20，对表达量分bin的数目，对每个bin里的数据进行归一化，如果只有一个基因落到bin里，那么该bin的dispersion会设为1。
flavor: {‘seurat’, ‘cell_ranger’, ‘seurat_v3’} (default: 'seurat')
subset：默认是false，只是返回高可变基因，否则就原位替换
inplace：默认是True，在var中进行存储矩阵
batch_key：没看懂

If specified, highly-variable genes are selected within each batch separately and merged. This simple process avoids the selection of batch-specific genes and acts as a lightweight batch correction method. For all flavors, genes are first sorted by how many batches they are a HVG. For dispersion-based flavors ties are broken by normalized dispersion. If flavor = 'seurat_v3', ties are broken by the median (across batches) rank based on within-batch normalized variance.

check_values：True，在seurat_v3模式下有用，检测每个count是不是为整型

代码

## _highly_variable_genes.py
 mean, var = materialize_as_ndarray(_get_mean_var(X))
 # now actually compute the dispersion
 mean[mean == 0] = 1e-12  # set entries equal to zero to small value
 dispersion = var / mean

 df['dispersions_norm'] = (
     df['dispersions'].values  # use values here as index differs
     - disp_mean_bin[df['mean_bin'].values].values
 ) / disp_std_bin[df['mean_bin'].values].values

获得每个基因的dispersion值，并进行排序

mean, var = _get_mean_var(X_batch)
not_const = var > 0
estimat_var = np.zeros(X.shape[1], dtype=np.float64)

y = np.log10(var[not_const])
x = np.log10(mean[not_const])
model = loess(x, y, span=span, degree=2)   ### 对mean和var进行loess回归
model.fit()
estimat_var[not_const] = model.outputs.fitted_values
reg_std = np.sqrt(10 ** estimat_var)

batch_counts = X_batch.astype(np.float64).copy()

参考资料

https://scanpy.readthedocs.io/en/stable/generated/scanpy.pp.highly_variable_genes.html

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345

使用scanpy进行高可变基因的筛选

函数

功能

重要参数

代码

参考资料

推荐阅读更多精彩内容