真实世界研究中，如何获得“靠谱”的科研结论？这个SAS实操讲解，科研小白都能学会！

2022-09-23 烤鸭小笼包 MedSci原创

在昨天的这篇文章这波「真实世界研究」热一定要赶上！学会这两个方法=研究成功了一半（纯干货）中，小编向大家介绍了真实世界研究中的混杂因素及其常用的校正方法，特别是倾向性评分匹配和逆概率加权

这篇文章我们通过一个具体的例子来展示SAS中的实现方法。

我们用的数据来源是荷兰格罗宁根市肾脏和血管终末期疾病预防（PREVEND）的队列研究（Joosten, 2014）。

原数据含有较多变量，小编自己对数据进行了简化。其中RFFT是结局指标，是一个连续型变量；我们想要研究的自变量是是否使用他汀类药物（Statin）。此外，还包括了年龄（Age），性别（Gender），种族（Ethnicity），教育（Education），心血管疾病（CVD），糖尿病（DM），吸烟情况（Smoking），高血压（Hypertension）这些协变量。其中，除了Age是连续型变量外，其他均为分类变量。

数据共有4,095名患者，其中904名在治疗组（statin =1），3,190名在对照组（statin=0）。以下是数据的部分截图：

图1. 原数据部分截图

在SAS中，倾向性评分匹配和逆概率加权都可以在PROC PSMATCH下实现，所以放在一起说。

倾向性评分匹配

PROC PSMATCH data = statin region = cs;

CLASS statin gender ethnicity education cvd dm hypertension smoking;

PSMODEL statin(treated='1') = age gender ethnicity education cvd dm hypertension smoking;

MATCH distance = lps method = greedy(k=1) exact = (gender) caliper = 0.25 weight = none;

ASSESS ps var = (age gender rfft cvd dm hypertension) /stddev = treated stdbinvar = yes

plots = (boxplot(display = (RFFT)) barchart(display = (gender)) cloudplot(display = (age)) stddiffplot(ref=0.1));

OUTPUT out(obs = match) = psm_output;

RUN;

这是实现倾向性评分匹配部分的完整代码，我们一步步来看。

/* PROC PSMATCH data = statin region = cs; */

👆这一条是调用PSMATCH这个procedure。

data= 告诉SAS我们要分析的数据文件是statin; region= 是明确匹配的数据范围。这里的“cs”代表common support，就是我们之前提到的重叠区域。这里除了cs外还可以改成allobs，这样匹配范围就是所有个体了。

/* CLASS statin gender ethnicity education cvd dm hypertension smoking;*/

👆这一步定义了分类变量statin, gender等。

/* PSMODEL statin(treated='1') = age gender ethnicity education cvd dm hypertension smoking; */

👆这一步就是根据我们选定的协变量计算每个个体相应的PS值。

PSMODEL默认使用的模型是logistic regression。等号左侧是我们的分组变量statin or not，括号里treated = ‘1’ 告诉SAS当statin = 1表示治疗组。等号右侧是协变量，注意这里我们不能把结局变量 (RFFT) 也纳入模型。

/* MATCH distance = lps method = greedy(k=1) exact = (gender) caliper = 0.25 weight = none; */

👆上一步中我们计算出了PS，而MATCH这一步就是实施匹配的具体细则。

Distance = 选定指定距离，可选值有ps, lps, mah，分别表示PS, logit PS, 和马氏距离（对PS进行的某种处理）。这里我们选择了lps。

Method = 则选定匹配方法，greedy表示贪婪算法也即我们之前所述的最近邻匹配，k = 1表示治疗组与对照组按照1:1匹配，若k = 2则表示按照1 : 2匹配etc。除了greedy外，还有optimal, full, 和varratio等方法。

Exact = 指定必须精确匹配的变量，这里我们选择了gender，即要求匹配对象的性别必须是完全一致的，exact = 可以指定多个变量。

Caliper = 定义了卡钳值，我们之前提到过，即匹配对象PS或LPS的差值不能超过某个数，一般默认值是0.25。

Weight = 是权重，在1:1的匹配情况下，每个个体所占权重是等价的，即都等于1。

/* ASSESS ps var = (age gender rfft cvd dm hypertension) /stddev = treated stdbinvar = yes

plots = (boxplot(display = (RFFT)) barchart(display = (gender)) cloudplot(display = (age)) stddiffplot(ref=0.1)); */

👆ASSESS statement是评估匹配效果的。

“/”之前的ps和var = 明确了想要评估的对象，“/”之后则告诉SAS我们想要以怎样的方式对这些对象进行评估。SAS会自动生成一个表格，显示匹配前后的PS值和变量组间差异的平均值、方差和标准均值差 (SMD) 等。

Stddev = 明确了在计算SMD时用到的方差是所有个体pooled还是仅治疗组treated的方差。

Stdbinvar = yes表明对二分类变量的SMD进行标准化。

在plots = 里，我们可以根据自己的需求生成箱线图、条形图和云图。Stddiffplot (ref=0.1)描述了各变量SMD的分布，然后将推荐范围限定为±0.1。

/* OUTPUT out(obs = match) = psm_output; */

👆最后将匹配成功的数据输出，命名为psm_output。

下面我们来看一看这一通操作下来结果长什么样：

这是一个对PSM结果总结的表，告诉我们输入和输出表格的基本情况。可以看到我们限定匹配区域CS后，重叠区域的上限和下限分别是0.03和0.96，共匹配成功了720对，匹配前后PS的均值和均值差。

这两张图和表其实说的是一件事，展示了匹配前后PS值以及我们选定的各变量的均值差及其方差，以及SMD。我们可以看到匹配后所有变量和PS值的差值都在±0.1范围内，说明我们的匹配效果很好。

这些就是部分变量的箱线图、条形图和云图，同样是对其匹配前后的分布进行可视化。总体上看来，匹配后的两组达到了非常好的平衡。

逆概率加权

下面简单说一说SAS中逆概率加权的实现。大致上和PSM非常像，只是把MATCH statement换成了PSWEIGHT，语句也更加简单。

weight = 明确了加权方式，分为atewgt和attwgt两种，根据逆概率加权的权重定义（研究组权重为1/PStreatment，对照组，权重为1/(1- PStreatment)），应选择atewgt。在ASSESS statement中，我们在plots里又加了一个wgtcloud即权重的云图。最后output里，注意这里我们没有做match，所以无法output matched sets，要把obs = 换成all，输出全部观察值。

PROC PSMATCH data = statin region = cs;

CLASS statin gender ethnicity education cvd dm hypertension smoking;

PSMODEL statin(treated='1') = age gender ethnicity education cvd dm hypertension smoking;

PSWEIGHT weight = atewgt;

ASSESS ps var = (age gender rfft cvd dm hypertension) /stddev = treated stdbinvar = yes

plots = (boxplot(display = (RFFT)) barchart(display = (gender)) cloudplot(display = (age)) stddiffplot(ref=0.1) wgtcloud);

OUTPUT out(obs = all) = ipw_output;

RUN;

生成的结果也和之前大同小异，这里不再赘述。

这里可以看到输出的数据里多了一列atewgt，即每个个体被赋予的权重。我们看一下权重云图：

可以看到无论是治疗组还是对照组，其权重分布几乎都在推荐的limit (两条灰色虚线)以内，表明我们的weighting没有太大问题。

通过以上学习我们发现，SAS中PSMATCH Procedure功能强大，可以非常完整地完成倾向性评分匹配和逆概率加权，并且根据我们的需求设定不同参数和计算方法，语言简洁直接，很好上手。

在下一篇文章中，我们将继续为大家介绍如何用R来实现倾向性评分的相关分析，敬请期待。

作者：烤鸭小笼包

版权声明：
本网站所有注明“来源：梅斯医学”或“来源：MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有。非经授权，任何媒体、网站或个人不得转载，授权转载时须注明“来源：梅斯医学”。其它来源的文章系转载文章，本网所有转载文章系出于传递更多信息之目的，转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。
在此留言

评论区 (1)

#插入话题

2023-06-18 地球超人

前辈您好，执行到这一步“PSWEIGHT weight = atewgt;“”老报错，实在是找不到原因 PSWEIGHT weight = atewgt; -------- 180 ERROR 180-322: 语句无效或未按正确顺序使用。

35 0

知名期刊

学术会议

医学生物学术会议查询频道

生物谷品牌会议

科研工具

写作工具

其他工具

平台业务解决方案

真实世界研究解决方案

数字化学术传播解决方案

其它

真实世界研究中，如何获得“靠谱”的科研结论？这个SAS实操讲解，科研小白都能学会！

相关资讯