博客

人工智能/机器学习医疗器械的风险管理

2021年7月,英国标准协会BSI宣布其正在制定将ISO 14971应用于人工智能(AI)和机器学习(ML)的指南文件。随后于2022年4月发布了共识报告AAMI CR34971:2022,即ISO 14971在人工智能和机器学习中的应用指南。

CR34971:2022旨在与ISO 14971:2019《医疗器械风险管理在医疗器械中的应用》结合使用,与ISO/TR 24971:2020《医疗器械-ISO 14971应用指南》共享其结构。编写标准是为了支持制造商设计产品,一些标准成为协调标准,并在法规框架内发挥作用,而技术报告(TR)和共识报告(CR)则描述了最佳实践,但不会因其开出不符合项。共识通常意味着可能存在不同的意见或方法,但这是大多数人可以达成一致的核心;而在新的和不断发展的科学中,它是良好实践的宝贵基准。

风险管理是医疗器械产品开发生命周期的基石,该共识报告(CR)旨在提供一个框架,用于识别和解决产品生命周期各个阶段可能出现的与AI/ML相关的特有危险源、危险情况和潜在伤害。

现在,撇开形式不谈,这个新的共识报告为那些在医疗器械开发中使用了AI和ML的人提供了什么内容?也许最有用的是附录B及其包含了识别安全相关特征的风险管理示例(从危险源到风险控制措施)的段落,详细覆盖了以下领域:

1. 数据管理
2. 偏差
3. 数据存储/安全/隐私
4. 过度信任
5. 自适应系统

其中一些领域是AI/ML特有的,其他一些领域则是医疗器械开发人员熟悉的内容;然而,在使用AI/ML时,每种方法都会带来新的复杂性,让我们更详细地了解一下…

数据管理是一个广泛的领域,但CR34971要求考虑数据完整性、一致性和正确性等具体问题。与性能危险、适用性和泛化相关的数据质量和模型复杂性的含义是什么?这将取决于您器械的具体情况,而这里为您提供了每个器械的示例,并提示您将这些问题作为风险管理活动的一部分来考虑。例如,使用不正确、不完整、主观、不一致和/或非典型数据可能导致AI/ML模型性能恶化,以及与这些数据质量问题相关的危险,风险管理过程中必须包括数据属性的假设,包括用于减轻其对性能和安全影响的控制措施。该章节还提出了“偏差/方差权衡”问题,这是开发AI/ML模型时的一个基本问题,以及在模型开发中考虑复杂性控制的必要性。

偏差考量是医学和科学研究以及医疗器械产品开发生命周期所需的统计严谨性的最基本支柱之一,在CR34971中受到了适当的关注。注意到偏差可能对性能同时产生积极和消极的影响,详细讨论了能够具体影响AI/ML模型的几种类型的偏差——选择偏差、内隐偏差、群体归因偏差和实验者偏差。该章节重点介绍缺失数据、样本偏差(非随机收集的数据)和覆盖率偏差(数据与目标人群不匹配)如何导致选择偏差以及对产品安全性和有效性的潜在风险。作为消减措施,建议在数据收集结束时进行验证,以确保数据集适当分布。当然,器械制造商必须考虑并评估偏差如何在开发阶段之外引入危险和危险情况。例如,应评估确定风险水平决策器械的人机界面设计,以确保报告计算风险的方法不会引入偏差并过度影响使用者。

由于忽视或忽略数据存储/安全/隐私会带来业务和合规风险,因此数据存储/保密/隐私已经成为所有组织关注的焦点。AI/ML医疗器械的特殊性是什么?在网络安全方面,CR列举了一个对抗性攻击对医学图像分类影响的例子,该攻击可能会导致图像发生细微变化,从而产生完全不同的高置信度分类。虽然将猫误分类为牛油果非常好笑,但其影响远大于将猫归类为牛油果的危害,而这样干的工具是一样,且可在网上免费获得。

From https://github.com/anishathalye/obfuscated-gradients

过度信任发生在人们依赖超出其能力范围的技术时,而变得过度依赖技术,会给患者带来风险。CR34971提出了这种情况可能显化的不同场景,以及进行生产后阶段监控的必要性,以确定何时可能发生这种情况,和采取适当的措施。该章节中一个有趣的补充是,建议披露AI/ML性能的置信度可以作为过度信任的风险控制措施,因为它将设定并锚定用户对器械性能的期望值。作为开发期间可用性评估和生产后阶段监控的一部分内容,可以评估和量化该措施的有效性。

与不会随时间变化而更改的传统软件系统不同,自适应系统在安装后有能力继续从新的观察结果中学习,因其代表了AI/ML系统的独特能力受到了特别的关注。虽然并非所有AI/ML系统都能做到这一点,但CR34971建议采用自我确认、重新计算和上市后确认过程等选项,来防范具有此功能的自适应医疗器械系统所带来的风险。

风险管理过程的一个关键部分是对总体剩余风险的评价。这对于任何器械来说都可能是一个困难的过程,而AI/ML的使用则增加了更多的挑战。幸运的是,CR提供了一些关于如何进行评价的建议。应记录算法结果、决策/预测阈值的影响以及公平性测试和性能指标的选择,并进行说明,尝试量化这些选项产生的剩余风险。

应为使用者、审核员和公众等所有利益相关方适当记录结果的可解释性,以及在可能的情况下,记录有关特征权重的信息。

我们只触及了CR34971所涵盖的几个方面,而在AI/ML医疗器械的风险管理方面,显然还有很多需要消化的内容。该共识报告提供了一个揭示AI/ML相关风险的视角和工具,和类似于ISO/TR 24971:2020的框架,以在风险管理过程中将其形式化。随着一定数量基于AI/ML的医疗器械在全球范围内获得市场准入,且更多的医疗器械正在开发中,MD/IVD行业应该欢迎这份共识报告。

标签

Need more information?

Do you have questions, or do you need more information about this topic? Please contact us.

联系我们
帮助 联系我们