条文本

下载PDF

临床试验中p值的贝叶斯解释
  1. 约翰•弗格森
  1. 临床研究机构西尔兰国立大学戈尔韦高威,爱尔兰
  1. 对应于John Ferguson博士,爱尔兰国立大学戈尔韦临床研究中心,戈尔韦,爱尔兰;john.ferguson在{}nuigalway.ie

摘要

通常接受的统计建议决定了大型样本大小和高度动力的临床试验,而不是具有较小样本尺寸的试验更可靠的证据。这种建议通常是声音:较大试验的治疗效果估计往往更准确,除了减少出版物偏差之外,通过更严格的置信区间目睹。考虑两项临床试验测试相同的治疗,导致相同的P值,试验与样本大小的差异相同。假设统计显着性,在第一次怀疑,较大的试验提供了更强烈的证据表明所讨论的治疗真正有效。然而,通常正是相反的是真的。在这里,我们说明并解释了这一点违反直觉的结果,并提出了关于临床试验结果的解释和分析的一些后果。

  • 临床决策
  • 方法
https://creativecommons.org/licenses/by/4.0/

这是一篇开放存取的文章,根据知识共享署名4.0未移植(CC BY 4.0)许可协议发布,允许他人出于任何目的复制、再发布、混音、转换和构建本作品,只要原始作品被适当引用,给出许可协议的链接,以及是否做出改变的指示。看到的:https://creativecommons.org/licenses/by/4.0/

来自Altmetric.com的统计信息

介绍

设想这样一个场景:由于招募患者不足,比较药物X和安慰剂对照的III期临床试验提前终止。治疗分配随后被试验统计学家发现并进行统计分析。不幸的是,现在真相大白了:协议被违反了,有人担心由于统计能力不足,结论可能被包含在内。由于这些担忧,决定回顾性地将该试验降级为探索II阶段状态。

然而,当分析结果被揭示时,有一个冲击:一个显著的p值,刚好低于0.05。研究的主要研究者感到沮丧;更大的样本量(按照方案)和相同的p值将构成可能被监管机构接受的X药物有效性的证据,而不是II期试验允许的更具探索性的结论。

虽然上面的故事只是一个奇闻轶事,对大多数临床试验团队来说是一个不寻常的情况,但它可能在某种程度上捕捉到临床社区内部的误解。事实上,并没有一般的统计理由来证明,相同的p值代表更有力的证据,表明治疗在较大的试验中比在较小的试验中有效。在本文中,我们从一个直观的、非数学的观点来解释这一说法。

P值和后验概率

非正式地说,P值反映了观察样本数据中所见的(长期)概率,或者如果实际上没有治疗效果,则会更加极端效果。贝叶斯计算反而估计存在的概率看了试验数据后的治疗效果。这第二个量叫做“后验概率”。后验概率比p值有更直观的解释,这反映在学生在学习统计学入门时,有时会将p值误解为后验概率。1此外,我们稍后将解释,如果使用适当的先验分布计算后验概率,则后验概率比p值更能反映支持或反对无治疗效果的零假设的证据总结。

处理效果参数的先验分布

先验分布总结了研究者在收集数据之前对治疗效果的真实价值的信念。图1使用“肿块和涂片”的方法2具体说明三种可能的先验,每一种都代表了关于治疗疗效程度的不同信念。这种方法包括在看到任何数据(治疗效果的先验概率)之前对治疗有效的概率进行主观说明,如果治疗有效,治疗效果大小的可能值的统计分布,以及被认为在临床上不重要或无效的效应大小分布(见图1详情请参阅传奇)。要做到这一点,就必须考虑如何衡量治疗效果。对于数值结果(例如,血压),治疗效果通常可以更简单地衡量为两组平均结果的差异。在这里,我们考虑binary-valued结果(如1年死亡率或疾病进展的),并衡量治疗效果优势比(ORs),提供的结果是罕见的可以被视为比事件率治疗组和安慰剂组,口服补液盐接近1表明治疗效果可以忽略不计。选择这种先验分布的必要性是贝叶斯框架的一个优势,因为它允许将数据外部的科学信息纳入分析。然而,它也可能被认为是一个缺点,因为通常一个适当的优先将很难指定。例如,不同的专家可能会对一种药物的有效性有不同的看法,在这种情况下,特定的事先选择与个人的信念相对应,为随后的分析增加了一定程度的主观性。

图1

用于治疗效果的三种可能的前提分布(通过A或相对于安慰剂对照测量)在临床试验中。在每种情况下,所遮蔽的Blued区域表示可能被视为临床不重要的治疗效果的值。虚线红线代表一个或1.05,假设最小临床有意义的治疗效果。替代地区(阴影红色)代表替代情景下的合理处理效果大小,治疗具有重要效果。三个假设的替代效果尺寸分布对应于有关药物推定效率的不同事先意见,标记为“持怀疑态度”,“标准”和“乐观”,对应于预期或1.1,1.3和1.5。为了完成先前的规范,分析师需要指定临床重要治疗效果的现有概率。此概率在这里是20%的(暗示治疗无效的前几概率为80%)。由作者创造。或者,赔率比。

在指定了先验分布之后,贝叶斯会再次问“考虑到已经产生的数据集,治疗效果存在的概率是多少?”中指定的先前发行版图1,这是数据更新后的真实OR位于处理效果值红色阴影区域的概率。从统计学上讲,这个概率被称为治疗效果的后验概率。

对于不同样本大小的固定p值的证据的贝叶斯解释

上面板图2显示三个先验(“怀疑的”、“标准的”和“乐观的”)在不同样本量下的后验概率图1,假设安慰剂组的事件发生率为10%,固定p值为0.05。例如,假设试验统计学家(在引言中提到)获得了每组683例的样本量,足以检测药物X和药效为80%的安慰剂之间事件发生率的5% (10% vs 15%)差异。再假设乐观先验在图1代表研究者对药物有效性的信念(注意,这种“乐观的”先验表明OR约为1.5,如果有效果,这与功率计算相一致)。如果试验在每组招募341名患者后就提前终止,且两组事件率比例差异的检验p值为0.05,则治疗效果的后验概率可显示为59%。另一方面,如果试验没有及早停止,即每组共招募683名患者,如果观察到p值为0.05,治疗效果的后验概率仅为54%。

图2

临床试验中治疗效果与样本量(每支)的后验概率结果来自于模拟数据,其中安慰剂组的事件发生率为10%。上图表示在p值为0.05的条件下进行治疗的概率。下面板显示了在5%水平上显著p值条件下的处理效果的概率。由作者创造。

特别地,对于标准和乐观的前沿,随着样品尺寸变大,处理效果的可能性趋于降低。对这种模式的直观解释是,如果真的是治疗效果,我们希望看到相对较大的观察到效果大小(和低P值)的乐观态度。增加样本大小而不是找出这种预期结果(即0.05下方的P值)可能会抑制这种最初的乐观。更从终,后验概率不仅取决于P值为0.05的可能性是假设没有治疗效果,而且如何在0.05的P值假设存在治疗效果时。随着样品大小变得更大,更大,第一概率保持不变(当没有处理效果时,P值始终具有平坦的分布,无论样本大小如何),但第二概率将非常小,值小于0.05的值越来越小。likely so that posterior probability of a treatment effect given a p value of 0.05 actually gets smaller as the sample size increases.

在较小的试验中纠正高估

观察相应效果显著p值很可能是两大真或反射和随机机会,因为p值更可能是小如果相关数据的结果大真实或和随机机会表演的方向或夸大。因此,与显著p值相对应的效应量估计有向上偏倚的趋势。由于随机因素在较小的试验中发挥更大的作用,因此在较小的试验中,偏差通常会更大。3.然而,使用适当先验的贝叶斯分析可以在一定程度上减轻这种偏差。从贝叶斯的观点来看,后验分布(一种概率分布,如图1,而是将选择的先验与数据相结合),在看到数据后,包含了关于治疗效果的所有信息,4因此,这个分布的平均值(即后验均值)是对处理效果的无偏估计。56不同样本量的后验平均ORs见图3,表示其先验(' skeptical ', ' standard ' and ' optimistic ')图1.注意,后验平均值将观察到的OR“缩小”为0,这可以被视为贝叶斯偏差校正。有趣的是,对于固定的p值0.05,后验平均OR有时在较小的样本量时更大,这表明即使在纠正显著性偏差(有时被称为赢家的诅咒或发表偏差)之后7),我们预计在较小的试验中,p值为0.05的真实效果会更大。

图3

后验均值OR与样本量(每只手臂)的比较,条件是p值为0.05图1.结果来自于模拟数据,其中安慰剂组的事件发生率为10%。虚线黑线表示在不同的样本量下达到0.05的p值所必需的观察OR。由作者创造。

复制危机和对小型试验的不信任

无论是好是坏,p值经常与显著性阈值(通常是5%阈值)进行比较,以做出决定。当我们观察到显著的p值(p≤0.05)和‘拒绝null’时,重要影响的可能性有多大?第二后验概率与重要结果的百分比密切相关,这些结果将在高强度的后续研究中被复制,因此科学的重现性。8在下面的窗格中演示的示例中图2,这个概率最初随着样本量的增加而增加。这是一个众所周知的结果,9并且经得起推理。随着试验样本量的增加,当存在重要的处理效果(即统计能力将增加)时,显著p值越来越有可能出现,但对于可忽略的处理效果,显著p值的增加就不那么明显了。观察到显著p值的重要处理效果的后验概率取决于这两个概率的比值,因此最初会随着样本量的增加而增加。然而,研究的样本量非常大,可能产生显著的p值,即使是小的,临床不重要的影响。反过来说,在大型研究中取得统计显著性并不一定表明有重要的临床治疗效果;这是一种解释大样本容量下后验概率下降的现象。

在使用之前是什么?

如前所述,在选择合适的先验时,通常存在合理的不确定性。值得注意的是,对于固定的p值,样本量和治疗效果的贝叶斯证据之间的关系在某种程度上取决于这种背景知识。例如,在图2与标准和乐观的前瞻相比,对持怀疑态度有所不同。没有可接受的共识视图或没有可用于构建之前的历史数据,很难将P值与任何贝叶斯证据的衡量标准联系起来。然而,如果对兴趣效果的科学或主观知识不可用,则另一种可能性是使用大致对应于类似实验中的真实效果大小的分布,或者确实在感兴趣领域。这是粗略地应用的方法,其中20%的现有概率归因于替代区域中的更大的有趣效果尺寸,遮住红色图110如果这种“与领域相关”的先验在某种程度上被特定的科学领域确切地知道,并被实践者用于他们的分析,那么由此产生的推论将对解决重复危机大有帮助,约阿尼迪斯强调了这一点。11例如,在得出结论的研究中,当使用这样的先验时,有95%的重要影响的概率,只有5%是假阳性,同样使用贝叶斯估计的结果,用适当的先验校准,不会受到选择偏差的影响。5然而在实践中,许多(如果不是大多数的话)统计上无关紧要的结果被压制,很难获得估计这种先验的良好数据。一个相关且重要的观点是,较小的试验往往更具有探索性,也许值得更怀疑的优先(在意义上图2),而不是更大的验证性III期试验。换句话说,在一个小型的II期试验中,我们可能不相信p值为0.05的真实性,主要是因为我们起初怀疑这种效应是否存在,而不是因为样本量低。

对分析和解释的影响

尽管有理由担心他们的就业方式,12p值可能在临床试验中仍然很受欢迎,因为监管机构对不控制长期统计特性(如I型错误和统计能力)的分析持怀疑态度。或许,监管机构应该更多地鼓励类似于我们在这里展示的贝叶斯分析,即使p值阈值被用于审批决定。在这一努力中,监管机构可能会帮助指定先验分布,以减轻调查人员选择的先验分布可能导致结果偏差的担忧。这种补充报告有可能增加试验结果的可解释性,因为如上所述的原因,贝叶斯方法可以提供支持或反对治疗效果的证据的更广泛的概述。

总之

我们现在回想一下引言中提到的那位沮丧的调查员所处的困境。他们的误解是,p值略低于0.05在某种程度上是不可靠的,因为正在进行的试验由于患者招募不足而提前停止。然而,我们认为,如果没有正式诱发或之前,和假设的早期停止审判应该不会抑制调查员的信念对于药物的有效性,没有好的统计原因的结论应该是不同的,如果在一个更大规模的实验也观察到同样的p值。当然,在计划试验时,样本量越大越好。更大的样本量会提高发现重要治疗效果的能力,同时更紧密的CIs,当效果显著时减少发表偏差;但是,实验前的规划和给出临界值的统计推断是完全不同的事情。

这里解释的关于p值、治疗效果的贝叶斯证据和样本量之间关系的结果是众所周知的。13在某种程度上,它们并不令人惊讶,因为p值(用于检查数据与无治疗效果的无效假设的兼容性)本身只提供了关于治疗是有效的替代假设的潜在真理的部分信息。我们在前面提到过,当我们观察到这个p值考虑了无处理效果的零分布下检验统计量的分布时,它忽略了有效处理的备择假设下的分布,为了全面总结数据中关于治疗是否有效的证据,对两者的考虑都是必要的。相比之下,贝叶斯程序隐式地结合了这两种分布,因此可以提供一个更完整的观点,支持或反对治疗效果的证据,结合了实验前的知识和观察数据的有效利用。在可能的情况下,将这种想法纳入临床试验分析中,可以帮助避免单纯依赖p值而产生的可能的误解。

伦理语句

患者同意发表

致谢

作者要感谢NUI Galway的Neil O 'Leary和Conor Judge对这份手稿草稿的有益评论。

参考

脚注

  • 贡献者JF构思了手稿的构思,设计并编写了模拟实例,完成了手稿的编写。

  • 资金这项工作得到了HRB Grant编号EIA-2017-017的支持。

  • 相互竞争的利益没有声明。

  • 来源和同行评审不是委托;外部同行评议。

请求权限

如果您希望重用本文的任何或全部,请使用下面的链接,它将带您到版权许可中心的RightsLink服务。您将能够获得一个快速的价格和即时许可,以许多不同的方式重用内容。