前段时间被问到I-SPY2试验的随机化原理,才发现其实自己对I-SPY2理解的根本不到位,那就看一下原文吧~
I-SPY2采用的是主方案(Master Protocol)中的平台式试验设计,与伞式和篮式不同,平台式可以同时对多种研究药物和多瘤种(这里可以把乳腺癌的多种亚型视作多瘤种)进行评估。另外,I-SPY2试验采用的是Adaptive Randomization(自适应随机),进一步讲,是Response-Adaptive Randomization(RAR)。与常用的1:1或者1:2的均衡性随机(Equal Randomization,ER)原则不同,RAR会将入组患者优先分配到对其可能更有利的治疗组(在新辅助阶段就是更可能获得pCR)。
先看一下整个试验流程↓
Step1. New patient enrolled;biomarker subtype assessed
简单来说就是根据HR、HER2状态和MammaPrint风险(MP1:高风险;MP2:极高风险)将患者分为8种subtype↓
Step2. Randomly assign to experimental group or control group
这里的随机其实是两步:
首先,是简单随机,会有20%的患者在这步分配到control组;
然后,剩下80%的患者按照RAR分配到不同试验臂中↓(红色为已经毕业或提前终止)
根据患者的subtype和每个Arm的实时pCR率计算每个Arm优于control组的概率,依据该概率进行随机,这样就可以使优势药物尽快毕业。这个概率的计算方法也是整个I-SPY2试验的统计学核心:贝叶斯定理。
p.s. 贝叶斯定理中的关键概念↓
- 先验概率(prior probability)分布,即关于某个变量X的概率分布,是在获得某些信息前,对X的不确定性进行的推测。
- 后验概率(posterior probability)是关于随机事件或者不确定性断言的条件概率,是把相关证据/背景给定并纳入考虑后的条件概率。后验概率分布就是未知量作为随机变量的概率分布。
- 贝叶斯定理得出的后验概率:
posterior( θ | data) ∝prior( θ) L( data | θ)
P(x)是一个标淮化常量,可由全概率公式计算得出;P(θ)是θ的先验概率分布;P(x|θ)就是θ参数下观测值x的似然!
I-SPY2中的贝叶斯公式↓
含义是:考虑现有的data分布,第k个治疗组优于对照组的后验概率。试验的随机化概率正比于该后验概率(随机会概率还会纳入一个turning parameter λ,不是完全采用后验概率入组),同时试验会设置最小入组概率,避免某些臂无法入组。
上述公式看起来很简单,但实际上极其复杂,我翻了下试验protocol的Statistical Considerations部分,然后发现概率论基本都还给老师了.........以下内容仅为我有限的理解,求指正...........
试验采用的统计模型中参数如下↓
- T(treatment)代表治疗方式,其中T0代表control组;
- Z1,Z2,…Zk是biomarker表达情况,I-SPY2试验的K=3,因为有3种纳入考虑的biomarker(两种乳腺癌的关键受体HER2、HR的表达,加上MammaPrint的风险评分(这里分为MP1,MP2))。 Z1=1/0 代表HER2是/否过表达;Z2=1/0 代表HR是/否过表达;Z3=1/0 代表MammaPrint极高风险(MP2)/高风险(MP1);
- Y1,Y2….Yj 是第j次的MRI评价,可以理解为对肿瘤退缩程度的评价;但是新辅助治疗的疗效评价是pCR,本试验的最终疗效评价标准是6个月时是否获得pCR。
那么问题来了!试验进行过程中很多患者还没有达到临床终点,因此只能用MRI的结果去推断一个患者6个月时是否能达到pCR↓
dYj=(Yj-Y1)/Y1不难理解,就是(第j次MRI测量的肿瘤大小-第一次MRI测量的肿瘤大小)/第一次MRI测量的肿瘤大小,因此从dYj是可以看出肿瘤缩小的趋势。于是可以以pCR结果为条件,对MRI测量的百分比变化进行建模,6个月后是否获得pCR的变量是Y’,服从伯努利分布↓
↑从而可以构造Y’的概率密度函数。然后,对于每一个患者,假设该患者的数据为X,那么可以得出数据X的模型参数θ的似然函数↓
之前一直听的是,I-SPY2统计原理核心是贝叶斯,但是统计模型核心是逻辑回归。因为我们从上述公式中得到的是每一个患者获得pCR的概率,而我们做决策需要用到的是yes or no,因此需要assume π(z,Tk)具有逻辑回归特征,logit(π(z,Tk))如下↓
由于↑公式太辣眼睛了,logit(π(z,Tk))可以简化理解为↓
这样我们就是可以算出每一治疗臂在现有数据下的pCR率,之后回到之前的贝叶斯定理,计算第k个治疗组优于control组(就是算出的pCR率高?)的后验概率p(这里计算p还需要用到一个来自于I-SPY1试验的先验概率分布,简单理解就是从I-SPY1试验中得出的对每种药物组合的优劣程度的预判),用λ校正后得出最终进入第k条治疗臂的随机概率!
Step3. Update patient outcome data
这步其实就是根据上述模型不断地更新每一治疗臂中的pCR率,毕竟任何一臂的pCR率改变都会对随机化概率产生很大的影响。
Step4和Step5里面还涉及MCMC多重填补和GO/NO-GO决策的预测概率计算,又是一大块看不懂的内容。。。江湖再见吧。。。。。。
参考文章:
- Adaptive Randomization of Veliparib-Carboplatin Treatment in Breast Cancer.[J]. New England Journal of Medicine, 2016, 375(1):23.
- https://mp.weixin.qq.com/s/n3fROBr_3YLP5FCzlYSjgQ