博客

为什么总体准确度并不充分?

当前,许多变化正在影响着IVD行业,例如即将在欧洲实施的IVDR法规变化,而诸如SARS-Cov-2之类的新疾病则正在影响我们的一生。

我最近在评审一份SARS-CoV-2抗原检测的性能摘要,制造商声称该检测准确度为90%。这类陈述本身不并足以描述产品性能。听起来不错,那么问题出在哪里呢?问题在于仅要求90%的准确度,而无法确定灵敏度、特异性、阳性和阴性预测值。这里有一些定义和一些示例来说明这一点。


这是一张标准的2X2表格,用于将新的定性检测方法与参考方法或临床实际进行比较。

Reference (or Clinical Truth)

Method X

Positive

Negative

Total

Positive

TP

FP

TP + FP

Negative

FN

TN

FN + TN

Total

TP + FN

FP + TN

N

 

在这里,

TP (true positive) = reference positive and method positive

FP (false positive) = reference negative and method positive

FN (false negative) = reference positive and method negative

TN (true negative) = reference negative and method negative

关键性能统计数据的定义:

准确度= 100 x(TP + TN)/ N
灵敏度= 100 x TP /(TP + FN)
特异性= 100 x TN /(FP + TN)
疾病患病率= 100x(TP + FN)/ N
阳性预测值(PPV)= 100xTP /(TP + FP)
阴性预测值(NPV)= 100xTN /(FN + TN)

准确度预估(在阳性和阴性样品中(通过参考方法))总N中与参考方法或临床实际相符的百分比。虽然这是一个“感觉很好”的数字,但单凭它不足以提供产品性能的评估。对于定性诊断产品,通常试图确定两组预期用途人群。即那些患有某种疾病或此案例中携带病毒的人,以及那些没有这种疾病的人。

准确度是灵敏度和特异性性能统计数据的加权平均值。90%的准确度,并不会为您提供灵敏度或特异性的信息。由于准确度是一个平均值(加权),当一个较低,另一个较高时,灵敏度或特异性则有可能一个低于90%,而另一个高于90%。也有可能两者都接近90%。问题是,如果准确度是提供的唯一统计信息,就无法确定实际的性能。除非,当准确度为100%(或0%)时,灵敏度和特异性则也必须为100%(或0%)。

看看这两个例子,阳性参考样品的数量将保持在100个观察值不变,总共500个观察值的患病率为20%。这两个示例的准确度估值均为90%。

Reference (or Clinical Truth)

Method 1

Positive

Negative

Total

Positive

99

50

149

Negative

1

350

351

Total

100

400

500

 

Reference (or Clinical Truth)

Method 2

Positive

Negative

Total

Positive

52

2

54

Negative

48

398

446

Total

100

400

500

Statistic

Estimate

Accuracy

90%

Sensitivity

99.0%

Specificity

87.5%

PPV

66.4%

NPV

99.7%

Statistic

Estimate

Accuracy

90%

Sensitivity

52.0%

Specificity

99.5%

PPV

96.3%

NPV

89.2%

 

 

 

 

 

 

 

方法1和方法2的准确度均为90%,但是它们的性能是否相同?不。

是否清楚哪一个总是比另一个更好?不。

它取决于检测的预期用途/目的。一般来说,阳性和阴性预测值可为检测的风险和收益提供更多信息。

灵敏度和特异性取决于产品的性能,且与患病率无关。阳性和阴性预测值则同时受产品性能(灵敏度和特异性)以及患病率的影响。

阳性预测值(PPV)预估当新方法获得阳性结果时,受试者或样品实际为阳性的可能性。如果方法1的PPV为66.4%(99/149),则测定结果呈阳性的样品(通过新方法)有66.4%的机会是实际阳性(通过参考方法或临床实际)。如果方法2的PPV为96.3%(52/54),则测试结果呈阳性的样品有96.3%的机会是实际阳性(通过参考方法或临床实际)。

对于新方法的阴性测试结果NPV也是一样的。基于方法1的NPV为99.7%,因此,如果方法1的测定结果为阴性,则有99.7%的概率相对于参考方法(或临床实际)而言是正确的。方法2的NPV为89.2%,因此根据参考方法(或临床实际),方法2阴性结果实际上为阴性的可能性为89.2%。

这两个示例的准确度均达到90%,从而应能清楚地表明,该统计信息本身并未提供足够的IVD产品性能描述。至少,灵敏度和特异性,以及预期用途人群的预期患病率和PPV&NPV估值是需要的。此外,还有其他统计信息可用于总结产品性能,但这不在本文的讨论范围之内。

了解灵敏度、特异性以及PPV和NPV是必要的,临床医生从而可以选择其所需临床性能的器械,同时这也是包括IVDR在内的法规提交所要求的透明度的一部分。

最后一点,某些IVD产品具有多种预期用途和/或具有不同患病率的不同亚组。这可能要求产品具有不同的性能水平,在制定可接收准则时应予以考虑。

下一期,我们将研究不同情境下患病率对PPV和NPV的影响。
发布日期: 七月 29, 2020
标签
帮助 联系我们