基于云平台的多中心脑胶质瘤专病数据库系统

一、研究背景及意义

1.1 研究背景

  在当今医疗领域,有效地利用大数据和数据分析技术已成为推动诊断和治疗进步的关键,尤其在脑胶质瘤等复杂疾病的研究中,如何从海量的医疗数据中提取出有价值的信息,已经成为提高诊断精确度和治疗效果的重要挑战。患者的个人信息、详细病历、医学图像数据,以及越来越丰富的基因组数据,都是医生和研究者进行疾病分析和决策时不可或缺的资源。在医疗信息领域,数据分析与挖掘的价值也开始得到了越来越多的认可。数据分析与挖掘在医疗信息领域的应用,特别是在高度个性化和变异性大的脑胶质瘤治疗研究中,能够显著提升医生的诊断效率和治疗策略的精确度,通过这些技术,研究者可以识别出疾病发展的模式、预测治疗的反应,并优化个性化治疗方案,从而提升治疗效果和患者的生活质量。这不仅对提高医疗服务的质量有着重要的意义,也对推动医疗信息领域的发展具有深远的影响。[1]

  近年来,随着医疗条件的不断改善以及医院信息化程度的不断提高,医学影像数据呈现暴发式增长。据《人工智能医疗器械产业发展白皮书(2023年)》统计,目前我国医疗数据的年增长率约为30%。中国影像设备细分产品中,MRI设备占比达19%。因此,医院磁共振科室中每年都会产生大量影像资料,以及与之相关的临床资料和课题资料。医学影像不仅对辅助疾病分析和诊断有重大帮助,而且在科研、教学中作为研究数据发挥重要作用。这些资料存放在PACS服务器、HIS服务器、光盘和MR设备等多个系统和来源中,且数据存储结构各不相同。传统的管理方法依托于微信、办公软件、纸质文件等工具,效率低下,且数据可靠性和完整性难以保证。

  2022年1月,世界卫生组织的下设机构——国际癌症研究机构(IARC)发布了《IARC Biennial Report 2020-2021(双年度报告2020-2021)》[2],据这份报告不完全统计,2020年全球新发癌症病例1929万,全球癌症死亡病例996万例。在所有癌症类型中,脑部中枢神经系统癌症的新发病例约为29万人,死亡人数约为24万人。脑胶质瘤是颅脑肿瘤中最常见的类型[3]。在中国其5年病死率在全身肿瘤中仅次于胰腺癌和肺癌,成为了当前致残率和死亡率较高的重大脑部疾病[4]-[5]。

2.2 选题意义

  在医疗大数据的背景下,如何有效地存储和管理海量的医学影像资源,以及如何深入挖掘这些资源中的知识,已经成为了当前亟待解决的问题[9]。传统的管理方法主要集中在数据的存储和检索上,而对数据中蕴含的丰富病理学和生理学信息的挖掘却并未给予足够的关注[10]。
MRI被视为脑胶质瘤的主要检查手段,基于MRI的多模态影像学技术在脑胶质瘤的诊断、鉴别诊断、治疗前评估、手术引导以及治疗后的跟踪等方面发挥了决定性的作用。按照世界卫生组织最新的肿瘤分类分级准则,脑胶质瘤在病理学上可以被划分为少突胶质细胞肿瘤、星形细胞肿瘤、室管膜细胞瘤、脉络丛肿瘤、胚胎性肿瘤等[7],其诊断和鉴别诊断过程具有一定的复杂性。经验丰富的放射科医师可以通过MRI准确地识别肿瘤,但对于经验较少的放射科医师和未经过脑肿瘤MRI诊断系统培训的医生,误诊和漏诊率较高。此外,面对大量的MRI影像,放射科医师常常会感到身心疲惫,从而影响到诊断的准确性。因此,如何将放射科医师从传统的阅片任务中解脱出来,已经成为一个备受关注的问题。[8]

  医学影像是指针对人体或人体某部分,以非侵入方式取得内部组织影像的技术与处理过程。在临床上,超过70%的诊断都依赖于医学影像[11],为医生分析病人的病情提供了大量直观可靠的诊断指标,成为现代医学临床诊断、病理研究不可或缺的工具。随着信息技术的快速发展,医学图像采集设备得到了极大的改进,医学图像的存储形式也从传统的图像或胶片形式转变为数字化存储[12]。这种新的存储方式不仅便于文档的保存和管理,而且节省了大量的时间和空间成本,推动了医学图像向数字化、多样化、海量化的方向发展。医学图像数据在临床诊断中为医生提供了决策性的指导,同时在科学教研中也发挥着越来越重要的作用[13]。然而,面对数量急剧增加、混乱无序的医学图像数据,如何有效地组织、管理和利用这些数据已成为医学领域亟待解决的问题。
建立医学影像数据库可以有效地组织和管理医学图像数据,但目前大多数医学影像数据库只是对存储的图像进行简单的统计、存储和管理,并实现简单的数据查询功能[14]。这些数据库并未充分有效地利用和挖掘存储在其中的大量医学图像数据的潜在价值,从而导致了信息资源的浪费和流失,限制了医学影像领域的进一步发展[15]。目前,对于医学影像研究机构而言,海量的医学影像数据在为相关分析研究带来便利的同时,数据的多样性与复杂性也为数据的管理带来了挑战,传统方法依靠人力或图表记录数据存储信息已经逐渐不能满足人们的需要。由于人工处理时出现的一些不可避免的因素影响,可能会导致出现一些数据的错误记录与遗失等情况的发生。数据库系统可以快捷有效的存储与管理大量的医学影像信息,并帮助数据库管人员摆脱传统的操作繁琐、效率低下的数据管理方式。

  脑部肿瘤分割(Brain tumor segmentation)是医学图像分析中一个具有挑战性的问题。脑肿瘤分割的目标是使用正确定位的masks生成脑肿瘤区域的准确轮廓。近年来,深度学习方法在解决各种计算机视觉问题(例如图像分类,目标检测和语义分割)方面显示出非常有前途的性能[16]。许多基于深度学习的方法已应用于脑肿瘤分割,并获得了令人印象深刻的系统性能。医学影像分割能够有效提高医生诊断脑部肿瘤的效率,降低主观差异带来的诊断误差。此外,脑部肿瘤分割结果不仅可以用于直观的诊断辅助,更可以作为影像组学(Radiomics)研究的基础。[17]影像组学是一种提取大量医学影像特征并进行高通量分析的方法,它能够从常规医学影像中挖掘出微观的、不易被肉眼观察到的生物信息。通过深度学习分割算法准确地界定出肿瘤的边界和区域,可以计算出肿瘤的形状、大小、纹理等多种特征。这些特征对于描绘肿瘤的生物学行为、预测治疗反应、评估预后等都具有重要意义。准确的脑肿瘤分割使得从肿瘤区域内自动提取数十到数百个影像特征成为可能,这些特征包括但不限于肿瘤的体积、强度统计、形状描述符、纹理分析参数等。这些参数能够反映肿瘤的异质性,为研究肿瘤微环境提供了新的视角和工具。例如,肿瘤内部的纹理异质性可能与基因表达、肿瘤侵袭性和患者的生存率相关联。深度学习方法在脑肿瘤分割中的应用,还助力于多模态数据的融合分析。MRI图像中的T1、T1C(对比增强T1)、T2、FLAIR等不同序列可以提供关于肿瘤的不同物理和化学信息,深度学习算法可以整合这些信息,提高分割的精度和鲁棒性。这种高精度的分割结果,为后续的影像组学特征提取提供了高质量的输入,从而使得这些特征在临床决策支持系统中的应用变得更加可靠。

二、国内外研究现状

  随着医疗卫生信息化建设的快速推进,医疗数据的种类和规模正在以空前的速度扩大。其中,医学影像作为医疗数据的一个关键部分,由于其在临床诊断、科研教学等领域的重要应用,越来越受到人们的关注[20]。医学影像数据库的发展得益于医学成像设备的进步,医学影像数据是通过对患者进行成像采集生成的。在早期,由于科学技术的限制,收集到的医学图像数据主要以胶片形式存储,这种方式不利于长期保存,占用大量空间资源,且数据共享性差[21]。然而,随着图像数字化时代的来临以及医院信息系统和图像存档与通讯系统的广泛应用,各级大型或中型医院开始引入医院信息管理系统或平台,将医学影像数据和其他文本信息数字化,实现了无胶片电子影像的管理。初期,采用光盘或磁盘进行存储,对结构化数据进行统计分析,后来建立了病例数据库,以实现对医学影像的录入、编辑、查询、显示、检索等功能[22]。

  在脑肿瘤分割方面,医学图像分割的主要工具确实包括U-Net[23]或V-Net[24]等网络。这些网络的优点在于,它们能够有效地从医学图像中提取特征,并对肿瘤区域进行精确的定位和划分[16]。近年来,Transformer网络结构因其在处理复杂数据中的优越性能而受到了广泛的关注[25]。Transformer网络以其自注意力机制(Self-Attention Mechanism)和并行处理能力,在处理图像数据,特别是医学图像数据时,展现出了巨大的潜力,为处理更复杂的任务和提高分割精度提供了新的可能性。[26]

2.1 云平台医疗专病数据库系统

  国外在医学影像数据库的建设和应用方面的研究较早展开。例如,英国卡迪夫大学的Stenson P.D等人收集了超过二十万种不同的基因突变,创建了人类核基因突变数据库[27]。意大利弗洛伦萨大学的Marcucci团队通过汇集16个内分泌诊断中心的甲状旁腺功能衰退症患者的医学影像数据,建立了一个专门针对这种疾病的数据库,以供医学专家进行病理分析[28]。日本大阪大学的Okada K研究员创建了国家再生医学联合会和国家再生医学数据库,旨在恢复因疾病或其他伤害而损失的器官功能[29]。在传统以数据存储为目标的数据库基础上,研究者对数据库系统的管理方式和功能进行了进一步研究,提高了数据管理的效率并丰富了数据库的功能。例如,Beahan S提出了一种管理医学影像数据及相关信息的方法,该系统能接受各种类型的医学影像数据,并将非结构化的影像数据转换为结构化的数据集进行存储[30]。Santos E.A等人构建的医学影像数据库能依据DICOM(Digital Imaging and Communications in Medicine)标准实现对数据库中数据的查询和复制比较分析[31]。Marcelo等人提出了医学图像数据库的分布式架构框架,该框架可以评估医学影像相关的研究算法和应用[32]。此外,还有一些研究者开发了具有特定功能的医学影像数据库。例如,Jianlin Gao等人开发的医学图像存储应用程序可以帮助医疗专业人员将患者的2D和3D图像数据存储在数据库中,并允许医生使用图像查看器进行查看[33]。Takuto等人开发的医学图像数据管理系统提供了一个用户界面,简化了数据库的使用,皮肤科医生可以使用智能手机或平板电脑轻松快速地查看患者的皮肤癌图像,并可以添加标签将数据存储在数据库中[34]。而关于医学数据库的人工智能训练和数据保护问题,Francis等人指出即使数据已经被去标识,共享用于人工智能研究的医疗数据仍可能引发伦理问题,并提出还有什么其他方式可以提供伦理监督的问题[35]。

2.2 深度学习脑肿瘤分割算法

  在脑肿瘤分割方面,医学图像分割的主要工具确实包括U-Net[23]或V-Net[24]等网络。这些网络的优点在于,它们能够有效地从医学图像中提取特征,并对肿瘤区域进行精确的定位和划分[16]。近年来,Transformer网络结构因其在处理复杂数据中的优越性能而受到了广泛的关注[25]。Transformer网络以其自注意力机制(Self-Attention Mechanism)和并行处理能力,在处理图像数据,特别是医学图像数据时,展现出了巨大的潜力,为处理更复杂的任务和提高分割精度提供了新的可能性。[26]

  在脑肿瘤分割领域,U-Net自2015年提出以来,因其直接有效的架构,已成为医学图像分割的常用基准[36]。Fabian等人提出的nnUNet,是一个基于2D和3D原始U-Net的强大、自适应框架,它去除了许多网络设计中的冗余结构,在多项医学分割任务中表现出色,已成为新一代的基准网络[37]。Ding等人提出的RFNet,设计了区域感知融合模块,能根据不同区域从可用的图像模态中进行融合,这样可以防止因不完全的多模态数据导致的训练不足和不平衡[38]。Zhang等人提出的mmFormer,旨在处理不完全的多模态学习问题,有效解决了在未能获取完整MRI图像时,传统多模态分割方法性能下降的问题[39]。

2.3 基于分割算法的影像组学特征计算

暂缺

三、研究进展

2.1 基于云平台的医疗专病数据库系统

2.2 基于深度学习的脑肿瘤分割算法

2.3 基于分割算法的影像组学特征计算

四、下一步研究计划

五、参考文献