为什么总体准确度并不充分？

当前，许多变化正在影响着IVD行业，例如即将在欧洲实施的IVDR法规变化，而诸如SARS-Cov-2之类的新疾病则正在影响我们的一生。

我最近在评审一份SARS-CoV-2抗原检测的性能摘要，制造商声称该检测准确度为90％。这类陈述本身不并足以描述产品性能。听起来不错，那么问题出在哪里呢？问题在于仅要求90％的准确度，而无法确定灵敏度、特异性、阳性和阴性预测值。这里有一些定义和一些示例来说明这一点。

这是一张标准的2X2表格，用于将新的定性检测方法与参考方法或临床实际进行比较。

	Reference (or Clinical Truth)
Method X	Positive	Negative	Total
Positive	TP	FP	TP + FP
Negative	FN	TN	FN + TN
Total	TP + FN	FP + TN	N

在这里，

TP (true positive) = reference positive and method positive

FP (false positive) = reference negative and method positive

FN (false negative) = reference positive and method negative

TN (true negative) = reference negative and method negative

关键性能统计数据的定义：

准确度= 100 x（TP + TN）/ N
灵敏度= 100 x TP /（TP + FN）
特异性= 100 x TN /（FP + TN）
疾病患病率= 100x（TP + FN）/ N
阳性预测值（PPV）= 100xTP /（TP + FP)
阴性预测值（NPV）= 100xTN /（FN + TN）

准确度预估（在阳性和阴性样品中（通过参考方法））总N中与参考方法或临床实际相符的百分比。虽然这是一个“感觉很好”的数字，但单凭它不足以提供产品性能的评估。对于定性诊断产品，通常试图确定两组预期用途人群。即那些患有某种疾病或此案例中携带病毒的人，以及那些没有这种疾病的人。

准确度是灵敏度和特异性性能统计数据的加权平均值。90％的准确度，并不会为您提供灵敏度或特异性的信息。由于准确度是一个平均值（加权），当一个较低，另一个较高时，灵敏度或特异性则有可能一个低于90％，而另一个高于90％。也有可能两者都接近90％。问题是，如果准确度是提供的唯一统计信息，就无法确定实际的性能。除非，当准确度为100％（或0％）时，灵敏度和特异性则也必须为100％（或0％）。

看看这两个例子，阳性参考样品的数量将保持在100个观察值不变，总共500个观察值的患病率为20％。这两个示例的准确度估值均为90％。

	Reference (or Clinical Truth)
Method 1	Positive	Negative	Total
Positive	99	50	149
Negative	1	350	351
Total	100	400	500

	Reference (or Clinical Truth)
Method 2	Positive	Negative	Total
Positive	52	2	54
Negative	48	398	446
Total	100	400	500

Statistic	Estimate
Accuracy	90%
Sensitivity	99.0%
Specificity	87.5%
PPV	66.4%
NPV	99.7%

Statistic	Estimate
Accuracy	90%
Sensitivity	52.0%
Specificity	99.5%
PPV	96.3%
NPV	89.2%

方法1和方法2的准确度均为90％，但是它们的性能是否相同？不。

是否清楚哪一个总是比另一个更好？不。

它取决于检测的预期用途/目的。一般来说，阳性和阴性预测值可为检测的风险和收益提供更多信息。

灵敏度和特异性取决于产品的性能，且与患病率无关。阳性和阴性预测值则同时受产品性能（灵敏度和特异性）以及患病率的影响。

阳性预测值（PPV）预估当新方法获得阳性结果时，受试者或样品实际为阳性的可能性。如果方法1的PPV为66.4％（99/149），则测定结果呈阳性的样品（通过新方法）有66.4％的机会是实际阳性（通过参考方法或临床实际）。如果方法2的PPV为96.3％（52/54），则测试结果呈阳性的样品有96.3％的机会是实际阳性（通过参考方法或临床实际）。

对于新方法的阴性测试结果NPV也是一样的。基于方法1的NPV为99.7％，因此，如果方法1的测定结果为阴性，则有99.7%的概率相对于参考方法（或临床实际）而言是正确的。方法2的NPV为89.2％，因此根据参考方法（或临床实际），方法2阴性结果实际上为阴性的可能性为89.2％。

这两个示例的准确度均达到90％，从而应能清楚地表明，该统计信息本身并未提供足够的IVD产品性能描述。至少，灵敏度和特异性，以及预期用途人群的预期患病率和PPV＆NPV估值是需要的。此外，还有其他统计信息可用于总结产品性能，但这不在本文的讨论范围之内。

了解灵敏度、特异性以及PPV和NPV是必要的，临床医生从而可以选择其所需临床性能的器械，同时这也是包括IVDR在内的法规提交所要求的透明度的一部分。

最后一点，某些IVD产品具有多种预期用途和/或具有不同患病率的不同亚组。这可能要求产品具有不同的性能水平，在制定可接收准则时应予以考虑。

下一期，我们将研究不同情境下患病率对PPV和NPV的影响。

发布日期: 七月 29, 2020

标签

Highlights

所有知识文章

帮助联系我们