OsT-FsT分析

一、OsT-FsT分析的原理

1. 背景和目的

  • 目的:检测代谢物水平上的选择标记,揭示不同群体(如野生种和栽培种)在代谢产物上的差异,进而理解驯化过程中的代谢选择和用途差异。

2. 关键概念

  • FsT(Fixation Index):遗传学中衡量群体间遗传分化程度的指标,值域为0到1。

    • FsT = 0:表示群体间没有遗传分化,即基因频率完全相同。
    • FsT = 1:表示群体间完全分化,没有共享的基因变异。
  • OsT(Phenotypic FsT):是表型特征(如代谢物含量)的FsT模拟物,用于衡量群体间表型的分化程度。

3. OsT的计算

  • 定义:OsT = ( \frac{\omega}{\omega_2 + 2\Omega_2} )

    • (\omega):群体间的变异(表型变异的“组间”差异)。
    • (\omega_2):群体内的变异(表型变异的“组内”差异)。
    • (\Omega_2):环境变异或误差项,通常在重复测量或实验设计中估计。
  • 直观理解:OsT衡量的是群体间的表型差异占总变异的比例。

4. 原理

  • 核心思想:比较表型分化(OsT)和遗传分化(FsT),如果某个代谢物的OsT显著高于中性预期的分布,可能暗示该代谢物受到了正向选择。

  • 中性假设:假设在没有选择的情况下,表型分化程度应与遗传分化程度相匹配。

  • 检测选择:通过模拟(如蒙特卡洛模拟)生成中性条件下的OsT-FsT分布,然后将观察到的OsT与之比较,计算P值,判断是否显著偏离中性分布。


二、详细步骤

1. 数据准备

  • 基因型数据:用于计算FsT,需要不同群体的基因型数据(SNP数据)。

    • 过滤:使用没有缺失值的四倍同义转换SNP,删除位于选择区域的SNP,以获得中性的FsT估计。
  • 表型数据:代谢物的含量测量值,需包含群体信息和重复测量。

2. 计算FsT

  • 方法:采用Weir and Cockerham(1984)的方法计算FsT。

  • 步骤

    • 计算群体内和群体间的基因频率差异
    • 估计FsT值:可以使用统计软件或编程语言中的遗传分析库,如Python的scikit-allel,R的hierfstat等。

3. 计算OsT

  • 使用方差分析(ANOVA)

    • 模型:以代谢物含量为响应变量,群体为固定效应,重复为随机效应。
  • 步骤

    • 计算群体间方差((\omega))
    • 计算群体内方差((\omega_2))
    • 计算环境变异或误差项((\Omega_2))
    • 计算OsT:使用之前的公式。

4. 生成中性OsT-FsT分布

  • 模拟过程

    • 重复次数:通常为1000次或更多。

    • 步骤

      1. 随机抽取FsT值:从中性SNP的FsT分布中随机抽样。

      2. 模拟(\omega)值:根据FsT值和(\omega_2)计算得到。

        • 使用公式:(\omega = \frac{2 \times FsT \times (\omega_2 + 2\Omega_2)}{1 - FsT})
      3. 计算模拟的OsT值:使用模拟的(\omega)和真实的(\omega_2)、(\Omega_2)计算OsT。

  • 目的是:建立中性条件下OsT的期望分布,以此作为参照。

5. 统计检验

  • 计算P值

    • 将观察到的OsT与模拟的中性OsT分布进行比较

    • P值:等于模拟值中大于等于观察到的OsT值的比例。

  • 判定显著性

    • 通常采用显著性水平(如0.05)判断代谢物是否受到选择。

三、代码实现

使用以下库:

  • Pandas:用于数据处理。
  • NumPy:用于数值计算。
  • SciPy:用于统计分析。
  • statsmodels:用于方差分析(ANOVA)。

1. 导入所需库

import pandas as pd
import numpy as np
from scipy import stats
import statsmodels.api as sm
from statsmodels.formula.api import ols

2. 示例数据准备

假设:

  • 我们有基因型数据,计算得到了中性SNP的FsT分布。

  • 有代谢物的表型数据,包括群体信息和重复测量。

# 示例FsT数据(中性SNPs)
fst_neutral = np.random.beta(a=0.5, b=5, size=10000)  # 生成FsT分布

# 示例表型数据
# 假设有两个群体,每个群体有重复测量
data = pd.DataFrame({
    'Metabolite': np.random.normal(loc=0, scale=1, size=100),
    'Population': ['Pop1'] * 50 + ['Pop2'] * 50,
    'Replicate': list(range(1, 51)) * 2
})

3. 计算OsT

# 使用ANOVA计算群体间和群体内的变异
model = ols('Metabolite ~ C(Population)', data=data).fit()
anova_table = sm.stats.anova_lm(model, typ=2)

# 提取方差分量
ms_between = anova_table['sum_sq']['C(Population)'] / anova_table['df']['C(Population)']
ms_within = anova_table['sum_sq']['Residual'] / anova_table['df']['Residual']

# 群体间方差(ω)
omega = ms_between - ms_within

# 群体内方差(ω2)
omega2 = ms_within

# OsT计算
OsT_observed = omega / (omega2 + 2 * omega2)

4. 生成中性OsT-FsT分布

# 模拟参数
n_simulations = 1000  # 模拟次数
OsT_simulated = []

for _ in range(n_simulations):
    # 从中性FsT分布中随机抽取一个FsT值
    fst_sample = np.random.choice(fst_neutral)
    
    # 使用公式计算模拟的ω
    omega_sim = (2 * fst_sample * (omega2 + 2 * omega2)) / (1 - fst_sample)
    
    # 计算模拟的OsT
    OsT_sim = omega_sim / (omega2 + 2 * omega2)
    
    OsT_simulated.append(OsT_sim)

# 转换为NumPy数组
OsT_simulated = np.array(OsT_simulated)

5. 统计检验

# 计算P值:OsT_simulated中大于等于OsT_observed的比例
p_value = np.mean(OsT_simulated >= OsT_observed)

print(f'观察到的OsT值:{OsT_observed:.4f}')
print(f'模拟的OsT平均值:{np.mean(OsT_simulated):.4f}')
print(f'P值:{p_value:.4f}')

6. 结果解读

  • 如果P值小于显著性水平(如0.05),则认为该代谢物的表型分化显著高于中性预期,可能受到了选择压力。

7. 可视化结果

import matplotlib.pyplot as plt

# 绘制模拟的OsT分布直方图
plt.hist(OsT_simulated, bins=30, alpha=0.7, label='中性OsT分布')

# 绘制观察到的OsT值
plt.axvline(OsT_observed, color='red', linestyle='--', label='观察到的OsT')

plt.xlabel('OsT值')
plt.ylabel('频数')
plt.title('OsT-FsT分析')
plt.legend()
plt.show()

四、总结

  • OsT-FsT分析是一种将遗传分化与表型分化相结合的方法,用于检测可能受到自然选择的特征。

  • 关键步骤

    1. 计算FsT:衡量遗传分化程度。

    2. 计算OsT:衡量表型分化程度。

    3. 模拟中性分布:建立在中性条件下的OsT期望分布。

    4. 统计检验:比较观察值与中性分布,计算P值。

希望以上解释能够帮助您理解OsT-FsT分析的原理和实现方法。如果您有任何疑问或需要进一步的帮助,请随时提问!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容