[空间转录组] Sepal——识别具有空间模式的基因

一、Sepal是干什么的?

原文:sepal: identifying transcript profiles with spatial patterns by diffusion-based modeling

  1. 识别空间转录组中具有空间模式的基因(genes with spatial patterns),并给出强弱的排序。

  2. 对具有空间模式的基因(取排序靠前的n个基因)进行聚类(pattern families),使得同一个类中的基因具有相同的空间模式,进而可以对每个类做生物解释(biological processes)。

二、Sepal的原理

其他方法往往假设数据服从某种分布,并依赖于假设检验(如:Trendsceek,SpatialDE,SPARK)。当数据与假设的分布不一致时,就不能得到理想的结果。

Sepal采取了不同的策略,文章认为基因在组织上的分布类似于物质的扩散,根据Fick第二定理和基因的在空间上的表达数据可以计算出每种基因的扩散时间,扩散时间更长说明更具空间模式,扩散时间更短说明分布更随机。因此,根据扩散时间可以给出基因具有空间模式由强到弱的排序。

具体公式与说明请见原文。

三、Sepal代码实现

原文GitHub代码(python)

1. 得到扩散时间表

sepal run -c counts.csv  -mo 10 -mc 10 -o . -ar 1k
  • -c 输入文件可以是.csv、.tsv、.h5ad(来自scanpy)格式,文件内容按照 n_locations x n_genes 排列,否则用 -t(或 --transpose)转置。
  • -ar 标注空间转录组类型,包括 visium,2k,1k。visium是10X的数据,1k是ST数据,2k不清楚是什么。
  • -mo、-mc、-ks等用来过滤基因。
  • -o 输出文件夹
1.PNG
  • average 表示扩散时间,被scale到 [0,1] 区间。

2. 排名靠前的基因画图

sepal analyze -c counts.csv -r *-top-diffusion-times.tsv -ar 1k -o . inspect -ng 20 -nc 5
  • -r sepal run 得到的.tsv文件
  • -ng 基因个数
  • -nc 每行画几个基因

3. 排序靠前基因聚类,得到pattern families

sepal analyze -c ./counts.csv -r *-top-diffusion-times.tsv -ar 1k -o . -ng 100 -nbg 100 -eps 0.85 --plot -nc 10
  • -nbg 取前多少的基因进行PCA
  • -ng 对前多少个基因进行聚类
  • -eps PCA方差贡献率的阈值,聚类数目与PC数目一致,-eps值越大,类的数目越多。

4. 对每个类(family)进行富集分析

sepal analyze  -c counts.csv  -r *-top-diffusion-times.tsv  -ar 1k -o . fea -fl *-family-index.tsv
  • -fl sepal analyze famliy 输出的文件,标注了基因所属类别。
  • -dbs 参考的数据库,默认使用 GO:BP。

四、详细参数

  • sepal run -h
                  .\ /.
                 < ~O~ >
┌─┐┌─┐┌─┐┌─┐┬     '/_\'
└─┐├┤ ├─┘├─┤│     \ | /
└─┘└─┘┴  ┴ ┴┴─┘    \|/
Version 1.0.0 |  see https://github.com/almaan/sepal
usage: sepal run [-h] -c COUNT_FILES [COUNT_FILES ...] -o OUT_DIR [-t]
                 [-mo MIN_OCCURANCE] [-mc MIN_COUNTS] [-mzp MAX_ZERO_FRACTION]
                 [-ks] [-dt TIME_STEP] [-eps THRESHOLD] [-dr DIFFUSION_RATE]
                 [-nw NUM_WORKERS] -ar {visium,2k,1k,unstructured} [-z]
                 [-ps PSEUDOCOUNT]

optional arguments:
  -h, --help            show this help message and exit
  -c COUNT_FILES [COUNT_FILES ...], --count_files COUNT_FILES [COUNT_FILES ...]
                        count files (default: None)
  -o OUT_DIR, --out_dir OUT_DIR
                        output directory (default: None)
  -t, --transpose       transpose count matrix (default: False)
  -mo MIN_OCCURANCE, --min_occurance MIN_OCCURANCE
                        minimum number of spot that gene has to occur within
                        (default: 5)
  -mc MIN_COUNTS, --min_counts MIN_COUNTS
                        minimum number of total counts for a gene (default:
                        20)
  -mzp MAX_ZERO_FRACTION, --max_zero_fraction MAX_ZERO_FRACTION
                        max fraction of spots with zero counts allowed for
                        gene (default: 1.0)
  -ks, --keep_spurious  include RP and MT profiles (default: False)
  -dt TIME_STEP, --time_step TIME_STEP
                        minimum number of total counts for a gene (default:
                        0.001)
  -eps THRESHOLD, --threshold THRESHOLD
                        threshold (eps) to use when assessing convergence
                        (default: 1e-08)
  -dr DIFFUSION_RATE, --diffusion_rate DIFFUSION_RATE
                        Diffusion rate (D) to use in simulations (default: 1)
  -nw NUM_WORKERS, --num_workers NUM_WORKERS
                        number of workers to use. If no number is provided,
                        the maximum number of available workers will be used.
                        (default: None)
  -ar {visium,2k,1k,unstructured}, --array {visium,2k,1k,unstructured}
                        array type (default: None)
  -z, --timeit          time analysis (default: False)
  -ps PSEUDOCOUNT, --pseudocount PSEUDOCOUNT
                        pseudocount in normalization (default: 2.0)
  • sepal analyze -h
                    _
                  .\ /.
                 < ~O~ >
┌─┐┌─┐┌─┐┌─┐┬     '/_\'
└─┐├┤ ├─┘├─┤│     \ | /
└─┘└─┘┴  ┴ ┴┴─┘    \|/
Version 1.0.0 |  see https://github.com/almaan/sepal
usage: sepal analyze [-h] [-c COUNT_DATA] [-r RESULTS] -o OUT_DIR
                     [-ar {visium,2k,1k,unstructured}] [-tr] [-rt]
                     [-ss SIDE_SIZE] [-nc N_COLS] [-qs QUANTILE_SCALING]
                     [-st SPLIT_TITLE SPLIT_TITLE] [-ps PSEUDOCOUNT]
                     [-sig SIGMA]
                     {inspect,family,fea} ...

positional arguments:
  {inspect,family,fea}

optional arguments:
  -h, --help            show this help message and exit
  -c COUNT_DATA, --count_data COUNT_DATA
                        count files (default: None)
  -r RESULTS, --results RESULTS
                        output directory (default: None)
  -o OUT_DIR, --out_dir OUT_DIR
                        output directory (default: None)
  -ar {visium,2k,1k,unstructured}, --array {visium,2k,1k,unstructured}
                        array type (default: None)
  -tr, --transpose      transpose count matrix (default: False)
  -rt, --rotate
  -ss SIDE_SIZE, --side_size SIDE_SIZE
                        side length in plot (default: 350)
  -nc N_COLS, --n_cols N_COLS
                        number f columns in plot (default: 5)
  -qs QUANTILE_SCALING, --quantile_scaling QUANTILE_SCALING
                        quantile to use for quantile scaling (default: None)
  -st SPLIT_TITLE SPLIT_TITLE, --split_title SPLIT_TITLE SPLIT_TITLE
                        split title (default: None)
  -ps PSEUDOCOUNT, --pseudocount PSEUDOCOUNT
                        pseudocount in normalization (default: 2.0)
  -sig SIGMA, --sigma SIGMA
                        sensitivity for selection of top genes (default: 1.5)
  • sepal analyze inspect -h
                    _
                  .\ /.
                 < ~O~ >
┌─┐┌─┐┌─┐┌─┐┬     '/_\'
└─┐├┤ ├─┘├─┤│     \ | /
└─┘└─┘┴  ┴ ┴┴─┘    \|/
Version 1.0.0 |  see https://github.com/almaan/sepal
usage: sepal analyze inspect [-h] [-sd STYLE_DICT] [-nc N_COLS] [-pv]
                             [-ng N_GENES]

optional arguments:
  -h, --help            show this help message and exit
  -sd STYLE_DICT, --style_dict STYLE_DICT
                        plot style as dict (default: None)
  -nc N_COLS, --n_cols N_COLS
                        number f columns in plot (default: 5)
  -pv, --pval           values are pvals (default: False)
  -ng N_GENES, --n_genes N_GENES
                        number of genes to visualize (default: None)
  • sepal analyze family -h
                    _
                  .\ /.
                 < ~O~ >
┌─┐┌─┐┌─┐┌─┐┬     '/_\'
└─┐├┤ ├─┘├─┤│     \ | /
└─┘└─┘┴  ┴ ┴┴─┘    \|/
Version 1.0.0 |  see https://github.com/almaan/sepal
usage: sepal analyze family [-h] [-ng N_GENES] [-nbg N_BASE_GENES]
                            [-eps THRESHOLD] [-p] [-sd STYLE_DICT]
                            [-nc N_COLS]

optional arguments:
  -h, --help            show this help message and exit
  -ng N_GENES, --n_genes N_GENES
                        included genes (default: 100)
  -nbg N_BASE_GENES, --n_base_genes N_BASE_GENES
                        basis genes (default: None)
  -eps THRESHOLD, --threshold THRESHOLD
                        threshold in clustering (default: 0.995)
  -p, --plot            threshold in clustering (default: False)
  -sd STYLE_DICT, --style_dict STYLE_DICT
                        plot style as dict (default: None)
  -nc N_COLS, --n_cols N_COLS
                        number f columns in plot (default: 5)
  • sepal analyze fea -h
                    _
                  .\ /.
                 < ~O~ >
┌─┐┌─┐┌─┐┌─┐┬     '/_\'
└─┐├┤ ├─┘├─┤│     \ | /
└─┘└─┘┴  ┴ ┴┴─┘    \|/
Version 1.0.0 |  see https://github.com/almaan/sepal
usage: sepal analyze fea [-h] -fl FAMILY_INDEX [-or ORGANISM]
                         [-dbs DATABASES [DATABASES ...]] [-ltx] [-md]
                         [-sa START_AT]

optional arguments:
  -h, --help            show this help message and exit
  -fl FAMILY_INDEX, --family_index FAMILY_INDEX
                        path to family indices (default: None)
  -or ORGANISM, --organism ORGANISM
                        organism to query against. See g:Profiler
                        documentation for supported organisms (default:
                        hsapiens)
  -dbs DATABASES [DATABASES ...], --databases DATABASES [DATABASES ...]
                        database to use in enrichment analysis (default:
                        ['GO:BP'])
  -ltx, --latex         save latex formatted table (default: False)
  -md, --markdown       save markdown formatted table (default: False)
  -sa START_AT, --start_at START_AT
                        start family enumeration at (default: 0)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343