SAS编程-Efficacy：如何生成样本率的可信区间？

欢迎关注，SAS茶谈！

在临床试验中，样本率作为试验有效性终点的情形，并不少见。在这种情况下，除了需要计算样本率之外，一般还需要计算率对应的95%可信区间。

这篇文章介绍，如何利用SAS输出样本率的可信区间，文章末尾附有精确概率法（Clopper-Pearson method）计算可信区间的完整代码。

1. 率的计算

率，指在一定范围内某现象实际发生数与可能发生该现象的总数之比，常用于说明某现象发生的频率或强度。

计算率的数据为分类资料。通常为二分类资料，例如，生存和死亡，发病与不发病等。当然，也会遇到多分类资料，例如肿瘤试验中CR、PR、PD与SD。

对于多分类资料，通常会转化为二分类资料进行处理，例如，CR和PR转化为缓解，PD和SD转化为未缓解。

如果不将多分类数据转化为二分类，SAS中也有选项指定用于计数的那一个分类。不过，SAS选项无法处理多个分类合并成单个分类的情况，对于这种情况还是需要转化为二分类数据。具体实现细节，这里就不赘述。

2. 率的可信区间

参考《医学统计学》（第三版，陆守曾、陈峰主编），计算率的可信区间常用2种方法，正态近似法和精确概率法。

正态近似法，也称Wald Confidence Limits。当样本量n足够大，且样本率 p 和 (1-p) 都不太小时，如np和n(1-p)均大于5时，样本率p的抽样分布近似正态分布。具体公式介绍可以参考SAS文档，SAS Help Center: Wald Confidence Limits。

精确概率法，也称Exact (Clopper-Pearson) Confidence Limits。当样本量太少时，使用正态近似法计算的可信区间范围可能超过[0, 1]，这样的结果显然是错误的。在这种情况下，应使用精确概率法。Clopper和Pearson于1934年提出了这种方法，具体公式介绍可以参考SAS文档，SAS Help Center: Exact (Clopper-Pearson) Confidence Limits。

SAS默认输出以上2种可信区间。

在临床试验统计分析中，率的可信区间一般都要求使用精确概率法 (Clopper-Pearson method)。

3. 率的可信区间的SAS实现

3.1 基础实现

我以《医学统计学》中的例题为例，进行演示，该例题应用的是正态近似法：

例4.4

通过题干可以知晓，抽取的144人中，阳性人数为13，阴性人数为131，构建数据集如下，0表示阳性，1表示阴性：

data tmp1;
    do i = 1 to 13;
      aval = 0;
      output;
    end;
    do i = 1 to 131;
      aval = 1;
      output;
    end;

    drop i;
run;

在SAS中计算率的可信区间，使用的是FREQ过程步中，tables语句中的binomial选项，默认输出Wald和Exact可信区间。

proc freq data = tmp1;
  table aval/ binomial;
run;

运行的结果如下，其中Wald可信区间与教科书中正态近似法的结果一致。

Result1

也可以通过binomial选项中的子选项cl =，控制输出具体的可信区间：

proc freq data = tmp1;
  table aval/ binomial(cl = wald exact);
run;

结果与默认输出一致：

Reslt2

3.2 指定用于计数的分类（`level =`）

从上面输出结果可以看出，率的计算都是基于aval = 0。这是因为Freq过程步计算率时，都是以默认排序排在首位的那一类别进行计算的。这时候，如果想要计算“阴性率”的可信区间，如何处理呢？

简单直接的方法是，用0来表示阴性、1来表示阳性，这样FREQ默认输出就是“阴性率”的可信区间，具体代码不再举例。

另一个方法，就是使用binomial中的level =选项，指定需要计数的那一个类别。level =选项，后面可以接数字，表示指定分类的位序；也可以接字符，表示指定分类的名称。

例题中的“阴性率”可以这样实现：

**level = level-number;
proc freq data = tmp1;
  table aval/ binomial(cl = wald exact  level = 2);
run;

**level = "level-value";
proc freq data = tmp1;
  table aval/ binomial(cl = wald exact  level = "1");
run;

上面两段代码输出结果相同，都是使用 aval = 1作为计数的分类。不过，在应用时，建议使用字符名称，因为位序数字可能与变量值相同，因而造成误导。

Result 3

3.3 分类缺失，如何处理？(`Weight`)

如果收集到的数据，阳性率为0，即数据集中aval的值全部为1。这种情况下阳性率的可信区间如何计算？

data tmp2;
    do i = 1 to 144;
      aval = 1;
      output;
    end;

    drop i;
run;

因为原始数据中并没有aval=0这一取值，所以需要一种方法把“分类 0”表示出来。

这个可以依靠频数计数的方法实现。

频数计数时，需要补全缺失类别，可以通过Means过程步preloadfmt选项，也可以通过Dummy数据集的方法实现，具体可以参考：SAS编程：频数汇总时如何处理分析分组种类不全的情况？。

推荐使用preloadfmt选项：

proc format;
  value aval
    0 = 0
    1 = 1
  ;
run;

proc means data = tmp2 nway completetypes;
  format aval aval.;
  class aval / preloadfmt order = data;
  var aval;
  output n = count out = count(drop = _:);
run;

结果如下：

Tmp 2

整理成频数表的形式之后，“分类 0”就表示出来了。然后，通过Weight语句将计数的Count变量作为FREQ过程步分析时的权重。

这里有一点要注意，FREQ过程步，也是默认忽略频数为0 的类别，若将其纳入分析需要使用zeros选项，即weigth count / zeros;, 具体参考SAS Help Center: WEIGHT Statement。

proc freq data = count;
  table aval/ binomial(cl = wald exact  level = "0");
  weight count / zeros;
run;

结果如下：

Result 4

这样，即便缺失、样本率为0的类别，也是可以计算出可信区间的。

4. 可信区间输出到数据集

以上计算的可信区间结果都是输出到SAS Results界面，而为了生成Efficacy Table，需要将可信区间结果输出到数据集中。

过程步运行结果输出到数据集，通常有两种做法。第一，在过程步中，使用Output语句；第二，使用ods语句进行输出。两者输出结果的展现形式，略有不同。

4.1 `Output`语句

为了输出tables语句中的binomial选项的结果，output语句中，也需要添加选项binomial。具体语法参考SAS Help Center: OUTPUT Statement。

proc freq data = count;
  tables aval/ binomial(cl = exact level = "0");
  weight count / zeros;
  output out = cl binomial;
run;

输出的数据集和Results的如下：

Result 5

数据集中红色方框里的两个变量，就是对应可信区间的上下限，小数位数保留略有不同。每个变量的Label都会描述变量的含义，很容易辨识。与Result内容相比，Ouput语句输出的数值没有Format，以原始数据的形式进行展示。

4.2 `ods output`语句

SAS过程步输出到Results中的内容，都是有具体的名称，可以通过ods output将具体名称的内容输出到数据集。

查看Results内容的具体名称，通常也有2种方式。

第一，从SAS官方文档中查询。例如，FREQ过程步中，对应的binomial选项输出内容名称如下（来源：SAS Help Center: ODS Table Names）

binomial

第二，也可以用ods trance on;进行查询输出内容的名称。

ods trace on ;

proc freq data = count;
  tables aval/ binomial(cl = exact level = "0");
  weight count / zeros;
run;

ods trace off;

以上程序运行之后，就可以从Log中查看Results中输出内容的名称：

Log

知晓内容名称后，就可以使用ods output将对应内容输出到数据集：

*ods trace on ;
ods output BinomialCLs = cl;

proc freq data = count;
  tables aval/ binomial(cl = exact level = "0");
  weight count / zeros;
run;

ods output close;
*ods trace off;

运行结果如下，上下限的数值以6.4的Format进行展示，与Results中显示一致。

BinomialCLs

输出到数据集之后，具体如何处理成Table中的显示，这里就不过多讲了。

最后，附上用于计算精确概率法可信区间的完整代码：

**Raw data, 0=Positive, 1=negative;
data tmp;
    do i = 1 to 13;
      aval = 0;
      output;
    end;
    do i = 1 to 131;
      aval = 1;
      output;
    end;

    drop i;
run;


**Count frequency;
proc format;
  value aval
    0 = 0
    1 = 1
  ;
run;

proc means data = tmp nway completetypes;
  format aval aval.;
  class aval / preloadfmt order = data;
  var aval;
  output n = count out = count(drop = _:);
run;


**Get exact 95% CI for the proportion of positive;
*ods trace on ;
ods output BinomialCLs = cl;

proc freq data = count;
  tables aval/ binomial(cl = exact level = "0");
  weight count / zeros;
run;

ods output close;
*ods trace off;

总结

以上就是SAS中获取率的可信区间的所有过程，文章先是介绍率以及率对应的可信区间，接着介绍SAS中实现过程。SAS编程中需要考虑，计数分类的指定，以及计数分类缺失的处理。最后，介绍将过程步计算的结果输出到SAS数据集的2种方式。

临床试验中通常会涉及多个试验组，实际应用可能还需要使用By语句进行分组处理。对应的Means过程步中，试验组作为分组变量也需要preloadfmt选项补全可能缺失的分组，这里不进一步补充了。

若试验组涉及汇总组的处理，可以参考SAS编程：生成Table时，汇总组(Total)组如何处理？，这里也不进一步探讨。

感谢阅读，欢迎关注：SAS茶谈！
若有疑问，欢迎评论交流！

最后编辑于：2022.10.15 18:03:55

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,189评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,577评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,857评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,703评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,705评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,620评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,995评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,656评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,898评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,639评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,720评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,395评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,982评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,953评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,195评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,907评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,472评论 2赞 342

SAS编程-Efficacy：如何生成样本率的可信区间？

1. 率的计算

2. 率的可信区间

3. 率的可信区间的SAS实现

3.1 基础实现

3.2 指定用于计数的分类（level =）

3.3 分类缺失，如何处理？(Weight)

4. 可信区间输出到数据集

4.1 Output语句

4.2 ods output语句

总结

推荐阅读更多精彩内容

3.2 指定用于计数的分类（`level =`）

3.3 分类缺失，如何处理？(`Weight`)

4.1 `Output`语句

4.2 `ods output`语句