中国医学影像人工智能发展报告(2021—2022)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第二章 医学影像人工智能大数据

第一节 医学影像人工智能发展对数据的要求

数据是人工智能技术所有要素中的核心,其规模和质量是人工智能系统效果的基础。离开数据谈人工智能,是空中楼阁、无米之炊,人工智能是建立在数据的基础之上,换句话说,人工智能是对于数据的智能化处理、解读、判断等。对于医学影像而言,应用人工智能技术对整个临床诊疗路径提供辅助分析,以及对影像设备的成像各步骤进行处理,达到为临床场景和设备进行赋能,提高与医学影像链相关的诊断、治疗效果和效率。例如在诊疗过程中提升特定病种的诊断准确性、提高放射治疗的靶区勾画效率、增加对影像征象提示和解读等,缩短检查过程中的定位时间、降低设备的辐射剂量、减少图像噪声和伪影等。上述这些成功的应用,使得医学影像人工智能成为医学人工智能领域最成功和广泛的应用场景,学术成果和商业化产品不断涌现,其重要基础就是具备了大规模、标准化、具有临床共识的标注和与临床场景相适应的数据。这些数据的产生、收集、汇集和处理过程从根本上决定了人工智能的最终深度和效果。

医学影像相对于其他医疗场景在数字化技术上一直走在前列。医学影像数据是指对医学影像信息的形式化表示,不仅包含影像中的图像,还包含与影像相关的临床数据、标注信息等,以原始或者经过数据处理后的形态呈现出来。医学影像数据集是将数据以汇聚形式展现,医学影像数据库是利用数据库系统对数据或者数据集按照数据结构来进行组织、存储和管理。

近年来,以深度学习为主流的人工智能技术路线和机器学习框架下设计数学模型或者神经网络模型,其根本是利用事先收集的数据对模型进行训练,获得满足需求的模型,因此数据规模和质量成为决定效果的基础。而且随着相应大模型技术及强化学习、迁移学习、小样本学习等算法的发展,对于数据的需求从粗放式的追求规模和数量为主,向追求数据质量聚焦,要满足特定场景需求,获得包含充分标注、特异化、代表性的数据来提升适应性和泛化能力。结合医学影像领域的需求,辅助诊断是以循证医学理论为基础,在医学影像数据复杂多变、病灶征象表现异常复杂的情境下,算法模型为了满足泛化能力、解释性、准确性、鲁棒性要求,对数据要求更高。在现有深度学习模型和算法的技术条件下,算法对训练数据具有很高的敏感性,数据对医学影像人工智能产品的性能好坏起着决定作用。

与技术发展和临床各类新需求不断涌现相对应的是,医学影像数据依然处于滞后状态,在科研成果中以突出新算法、新场景为主流,针对数据治理的研究,在理论、技术、方法和实践上的成果不多,究其原因,主要是因为进行数据尤其是医学数据集的建设,存在投入大、周期长且影像各类模态、器官、专病间差异大等不利因素,导致研究者对于数据基础研究不重视,算法研究大量引用国外公开数据源。这种状态不利于奠定良好、自主的研究基础,必将会危害到相关领域的长期发展。对于国内近几年来快速成长的医学人工智能和医学大数据企业,高质量数据的匮乏也成为制约产业发展的瓶颈。当前产品研发机构受限于现有条件,数据仅来源于少量合作医疗机构,所得到的数据在数量、覆盖的广度和深度均不足,在涵盖的设备层次、厂商、机型、地域、患病人群、医疗机构等级等方面有限,造成数据具有很大的偏倚性和系统性偏差,导致产品缺乏普适性和实用性。

因此将构建标准化、规范化、广覆盖、高质量、大规模的数据库提升到国家战略层面上进行统筹规划,面向科研和产业发展提供科研基础设施、引导内外部资源进行协同建设等方式方法成为当前医学影像数据建设可能获得突破的途径和需求。由国家相关机构和部门牵头,规划和统筹医学影像相关数据的整体发展战略,集中优势资源,以临床、科研和产业急需的数据资源为导向,建设国家级数据汇集机制和发展计划。采用多层次、分步骤、分区域、逐级逐步、短期和中长期发展相结合等方式,组织产、学、研、医、用、检测等机构进行合理分工合作。避免低水平重复建设、与需求不适用的无效建设、追求短期效果的盲目建设等不良方式的泛滥,有效提升我国医学影像人工智能数据基础的安全和自主可控。

国家卫生健康委员会在所属的能力建设和继续教育中心专门设立了健康医疗大数据创新应用示范中心,正推动将国家临床重点专科标准数据库建设、国家健康医疗大数据创新应用示范平台建设,以及即将全面开展的健康医疗大数据创新应用工作等,纳入国家“十四五”全民健康数字工程规划。国家卫生健康委能力建设和继续教育中心依托国家健康医疗大数据创新应用示范中心,在规划信息司的指导下,正以临床重点专科标准数据库建设为抓手,建立健全权威、科学、规范的健康医疗大数据库建设标准体系,搭建国家级健康医疗大数据创新应用示范平台,主导国家层面健康医疗大数据政产学研用转化创新示范应用,致力于推进跨领域的资源融合与协同创新,推动健康医疗数据供需精准对接,引导社会主体对健康医疗数据的价值挖掘和创新应用,努力打造健康医疗大数据创新应用发展的示范样本。

以上是从国家级战略层面上对医学影像人工智能相关数据库、数据集、数据等进行引导和示范。具体而言,从临床需求和卫生管理角度考虑,对数据的要求归纳如下:

1.与临床实际场景相适应,数据集的整体框架和内容要具有权威性、科学性和多样性。数据基于以权威的临床诊断标准、规范或者专家共识,真实、准确地反映临床实际情况,来源于权威可信的多家临床机构,分布比例符合流行病学特征和统计学要求。

2.数据集的建立过程要标准化和规范化。标准化涉及数据采集、数据处理过程中设备、方法、工具、人员以及环境等问题。包括成像过程中设备参数、品牌厂商、性能规格,对图像信噪比、分辨率和伪影等产生影响的因素进行约定;数据集采集和构建过程中的标准化、规范化、流程化、同质化;对数据处理如标注工具的可信性、结果的可追溯性、人员的规范化、环境的适应性等。缺乏规范化保证的数据集将难以保障人工智能医疗产品的可靠性、有效性和安全性。

3.注重数据知识化。对于影像人工智能,最直接的处理是进行图像的识别等层级的智能化处理,但是人工智能的高层次应用是以知识为基础的推理等处理。因此对影像数据除了进行基本的标注等附加信息之外,利用多模态的数据,以及将诊断信息等与之进行融合,形成知识化的数据库,是进行高层次智能处理的必要措施。另外,在影像处理的技术路线上,以数据为基础,进行初步的训练,构建出对低级视觉特征具备识别能力的预训练模型和大模型,也将是数据建设的进一步发展趋势。

4.建立起数据共享生态,促进分工合作,提升产业综合竞争力。由于高质量数据匮乏、标准不统一的现状,导致辅助诊断系统偏差较大甚至存在错误,迫使行业企业采取更多标注数据、更多学习参数的策略,获取盲目性的“经验模型”来覆盖目标病种的各种征象,提高人工智能产品的性能指标和鲁棒性。该策略投入大、质量无法保证,不能提高算法的性能,还会导致不收敛等致命问题。同时由于缺乏数据共享机制,不同机构和企业构建孤立的数据集,陷入低水平重复建设,造成数据竞争和垄断的结果,无助于行业整体水平的提升。因此,行业内急需建立数据共享的生态机制,打通渠道,提高质量,减少重复建设,促进分工合作,形成产业链,提升综合竞争力。

5.注重伦理和数据安全,保证患者隐私。临床数据涉及大量的个人敏感信息,这就给数据的安全性和保护个人隐私方面带来了挑战。目前医疗健康数据的保护和监管措施尚不完善,隐私信息泄露的风险高,因此数据集的构建需要从技术和政策法规两方面做好对数据使用的规范,保障数据使用的安全和个人隐私不被滥用。此外,为了确保可分享数据合规使用,还需要建立相应的法律法规来明确数据的所有权、许可权和隐私权,解决数据在使用过程涉及的伦理和遗传资源保护问题。

(马兆毅 蒋薇 颜子夜)