基于深度学习的超大病理图像分类算法研究

申报人：王恩浩申报日期：2024-11-07

基本情况

所属批次:

2025年度大学生创新创业训练计划

项目名称:

基于深度学习的超大病理图像分类算法研究学生选题

项目类型:

创新训练项目

所属一级学科:

工学

所属二级学科:

计算机类

项目来源名称:

学生自主选题

项目归属学院:

项目期限:

一年半期

项目简介:

该项目主要研究内容如下： ①针对标注数据的稀缺性,项目利用弱监督学习、半监督学习和自监督学习技术,减少对大量精确标注数据的依赖。研究如何从病理报告和诊断记录中提取临床标注信息，以增强模型训练数据; ②针对模型泛化性和可解释性通过迁移学习、数据增强和数据归一化技术，提高模型在不同数据源上的泛化能力。同时探索可解释的AI技术,为病理学家提供临床可解释解释依据。

负责人曾经参与科研的情况:

无

指导教师承担科研课题情况:

面向多中心数据的不完备多模态医疗影像分割算法研究，国家自然科学基金青年项目， 30万元

人工智能技术在医学图像处理领域的应用，华东理工大学2024年教师产学研践习计划，

指导教师对本项目的支持情况:

指导老师将负责课题算法框架设计，并在整个项目实施过程中提供指导。

项目级别:

校级

项目成员

序号	学生	所属学院	专业	年级	项目中的分工	成员类型
1	王恩浩	信息科学与工程学院	计算机科学与技术	2023	承担项目主要任务，协调、监督小组成员分工合作。	第一主持人
2	谢子瑞	信息科学与工程学院	计算机科学与技术	2023	承担项目主要任务，协调、监督小组成员分工合作。	第二主持人
3	高浩珈	信息科学与工程学院	软件工程	2023	与项目成员合作完成项目任务。	成员
4	黄安	信息科学与工程学院	计算机科学与技术	2023	与项目成员合作完成项目任务。	成员

指导教师

序号	教师姓名	教师账号	所属学院	是否企业导师	教师类型
1	周芹	09260	信息科学与工程学院	否	第一指导教师

立项依据

研究目的:

基于现有研究的不足和挑战，我们开展这项研究的目的如下：

①增强有关模型的诊断准确性。

②扩大有关模型的临床适用性。

③提升有关模型的可解释性。

研究内容:

本项目的主要研究内容是基于机器学习的超大病理图像分类的算法，利用计算机算法对病理图像进行分类、分割、检测等操作，从而辅助疾病诊断和治疗规划。研究内容包括：利用弱监督学习、半监督学习和自监督学习等技术，解决病理图像标注稀缺的问题以及减少对大量精确标注数据的依赖；从病理报告和诊断记录中提取临床标注信息，以提高模型的训练数据广度；通过迁移学习、数据增强和数据归一化技术以提高模型在不同数据源上的泛化能力；尝试探索解释性强的AI技术，如注意力机制和显著图等，从而为病理学家提供临床可解释的依据。

国、内外研究现状和发展动态:

国内外同类研究工作的现状

关于超大病理图像分类领域，国内外的研究主要集中在大规模图像数据集处理、图像分割与特征提取、运用深度学习有关技术分析数据等方面。

（1）分块与局部特征提取

由于超大图像尺寸的限制，许多方法采取分块策略，将病理图像分为多个小块，然后对每个小块进行单独分析。这样不仅减少了计算量，还能提高特征提取的效率。例如，国内外研究者提出了基于CNN的局部特征学习方法，这些方法通过对小块图像进行训练，结合局部区域的信息，实现病理图像的分类。

（2）多尺度网络设计

由于病理图像中的信息具有多尺度特征，近年来有研究提出了多尺度卷积神经网络（Multi-Scale Convolutional Neural Networks, MSCNN），通过多层次、多尺度特征提取器，提升病理图像分类的准确性和鲁棒性。国内研究者也基于这一思路，设计了可以同时处理多尺度信息的网络，进一步提高了模型的分类性能。

（3）注意力机制的引入

为了解决病理图像中的噪声干扰和局部特征重要性不均等问题，国内外许多研究在模型中加入了注意力机制。该机制可以帮助模型自动聚焦于图像中关键的区域（如肿瘤组织区域），从而提高分类的精度。

（4）预训练模型与迁移学习

由于标注数据稀缺，预训练模型和迁移学习在超大病理图像分类中的应用逐渐增多。国内外研究者普遍采用预训练模型（如ImageNet等数据集预训练的网络），并对模型进行微调来适应病理图像的特定需求。迁移学习方法可以有效缓解数据不足的问题，提升模型的分类效果。

（5）自监督学习

自监督学习作为一种无需人工标签的学习方法，近年来在超大病理图像领域得到了应用。自监督学习方法通过设计代理任务（如图像块重构、图像颜色恢复等），使得模型能够从大量无标注的图像中学习到有用的特征，并进一步应用于分类任务中。

（6）生成对抗网络

生成对抗网络（Generative Adversarial Networks, GAN）在图像生成和数据增强方面取得了显著成果。在病理图像分类任务中，GAN不仅可以生成高质量的伪数据来扩充训练集，还能用于图像去噪、图像修复等预处理任务，为分类模型提供更好的输入数据。国内外研究者探索了结合GAN和CNN的模型，用于提升分类精度。

（7）深度图像分割与分类联合模型

一些研究提出了结合图像分割和分类的联合网络，旨在通过精确分割病变区域（如肿瘤细胞、病灶区域等）来提高分类效果。通过这种方法，模型首先对图像进行分割，然后在分割结果的基础上进行分类，能够有效提高分类性能，尤其是在复杂的病理图像中。

国内外研究者常用的研究方法

（1）多尺度学习与切片级处理

病理图像通常是超大尺寸的全切片图像（Whole Slide Image, WSI），直接使用传统深度学习模型进行训练面临着计算资源消耗大、训练困难等问题。因此，研究者往往将图像切割成较小的块进行处理（例如256×256像素的图像块）。多尺度学习通过不同尺度的信息来提高模型的鲁棒性。可通过定义对齐矩阵协助在不同尺度的图像块之间建立联系，帮助识别不同放大倍数下图像块之间的对应空间关系。多尺度方法能够捕获图像中的细节特征，提高图像分类的准确性。

（2）数据加强

采用数据增强技术，如随机翻转、旋转、缩放和颜色调整，以提高模型的泛化能力。这些技术可以帮助模型学习到更加鲁棒的特征表示，尤其是在面对不同病理图像的变化时。

（3）卷积神经网络（CNN）

CNN是目前应用最广泛的深度学习模型之一，尤其在图像分类任务中表现突出。对于病理图像，研究者多使用CNN提取局部特征，并逐层进行深度特征学习。

（4）迁移学习与预训练模型

在病理图像领域，由于标注数据匮乏，很多研究采用迁移学习（Transfer Learning）的方法。即使用在大型自然图像数据集上预训练的深度学习模型，然后将其迁移到医学图像分类任务中。这样可以避免从零开始训练模型，减轻对大量标注数据的依赖。例如CLIP、PLIP等技术都采用了这样的思路。

（5）交叉熵损失函数和Dice Loss损失函数

在医学图像分割领域，交叉熵损失函数（Cross-Entropy Loss）被广泛使用，尤其是在类别不平衡的情况下，通过对不同类别的像素分配不同的权重，可以提高少数类别在训练过程中的重要性。Dice Loss是基于Dice Coefficient的函数，可以衡量分割结果和真实标注的重叠程度，它在计算交集和比值时忽略大量的背景像素，从而解决了前景和背景不平衡的问题。

国内外研究中常见的研究难点

（1）数据标注与不均衡问题

病理图像的标注非常耗时且依赖专业病理学家的经验。很多高质量数据集由于标注工作难度较大，导致数据集的规模相对较小。数据的类别不均衡也是一个问题，某些病理类型的样本数量远少于其他类型，这会导致模型对小样本类别的识别能力差。

（2）图像尺寸与计算资源要求

病理图像的尺寸通常非常大，超大图像的存储和处理成为一大挑战。如何在保证图像细节的前提下，合理划分图像，进行有效的图像处理和特征提取，是目前研究的难点。

（3）模型的泛化能力与可解释性

病理图像具有很强的个体差异性，不同医院、不同设备获取的图像可能有较大差异。因此，如何提高深度学习模型的泛化能力，使其能够在不同的病理数据集上表现一致，是一个亟待解决的问题。

（4）多模态数据融合

除了病理图像，很多研究还开始尝试结合基因组数据、临床数据等多模态信息来提升模型的诊断准确性。然而，多模态数据的融合技术、模型的协同训练和解释仍然是当前的研究难点之一。

创新点与项目特色:

1.优化相应算法，提升了模型在过拟合、灾难性遗忘等问题上的处理能力，提高了模型结果准确性。在过往研究中，由于给定处理内存可能大于给定数据的大小，模型在充分利用内存的情况下会对无用信息进行分析学习，这不仅降低了处理速率，也对准确性造成了一定影响。伴随着噪声数据分析，新的样本学习可能会对已建造好的模型网络产生影响，并且这种影响难以调整，最终导致结果产生偏差。我们在此基础上引入了CLIP等算法，成功克服了过拟合和灾难性遗忘等问题，这大大提高了模型的准确性。

2.模型泛化性得到提升，对标注数据的依赖程度下降，在超大病理图像分类、分割等方面具有显著优势。本项目在研究中运用了多种图像-文本、图像-图像、文本-文本等方向的处理算法和多对多的计算函数，较好地解决了以往研究中视觉学习模型（Visual Learning Model）因使用单对单函数和基于标注数据算法产生的对标注数据的依赖问题，从而使得模型对于未接触、未标注的数据集表现出更强的适应能力和泛化性，可以更好地在零样本情景下得出具有较高匹配度的结果。

3.模型可解释性得到提升，能够提供更加可靠、透明、清晰的诊断依据。本研究在处理数据集时除了引入大量来源可靠的病理学图像数据资源，也加入了病理学相关概念、描述和专业人员的判断样例、判断思路等自然语言数据。这不仅使得模型在数据集处理学习阶段具有更全面的分析能力，也使得最终生成的结果包含更多可解释的自然语言信息，从而为医生和病理学家的判断提供了更加可靠的依据。

技术路线、拟解决的问题及预期成果:

在超大病理图像分类算法研究中，如何巧妙结合有关深度学习的技术方法，如何以更低成本对数据量庞大的病理图像进行高效分析并减少模型对标注数据的依赖，如何使模型在临床应用中具有更强的可参考性和更高的可解释性和透明性等问题，是研究的重点和难点。因此，本项目主要聚焦于提高相关模型的泛化能力、减少对精确标注数据的依赖、降低对应数据的标注成本、解决标注稀缺的问题和提高模型可解释性，并解决研究中可能出现的领域偏移、灾难性遗忘、过拟合等问题。

① 利用迁移学习、数据增强和数据归一化等技术从病理报告和诊断记录中提取临床标注信息，提高模型的泛化能力，扩大其临床适用性。模型泛化能力（Model Generalization）是指模型对新的、未见过的数据做出准确预测的能力。在病理学图像研究中，由于生物体性状不完全一致，大量新数据的出现无法避免，只有泛化能力较强的模型才能对从已知训练集中分析和总结规律，并且更好地对于未接触、未训练的数据进行学习研究。我们将结合迁移学习、数据增强和数据归一化等技术并在其基础上作出改进，从而更有效地从病理报告和诊断记录中提取临床标注信息，同时解决领域偏移（Domain Shift）、灾难性遗忘（Catastrophic Forgetting）和过拟合（Overfitting）^[1]等问题，以更好地分析和处理未接触的病理学图像数据集，提高模型的泛化能力，为临床诊断提供更加有效的数据。

② 降低病理图像数据的标注成本，解决标注稀缺问题，同时减少模型对精确标注数据的依赖程度。数据标注成本（Data Labeling Cost）是指为训练机器学习模型而收集、整理和标注数据所需投入的资源和时间。在病理学图像分析领域，标注数据需要大量专业知识储备和经验积累，同时需要大量时间投入，成本极高，而目前的算法对精确标注数据有较大的依赖性。因此我们希望能够利用弱监督学习、半监督学习和自监督学习等技术优化有关算法，并且引入新的计算思路和方法，从而降低机器学习的标注成本和对精确标注数据的依赖程度，使得模型在耗费更少资源的条件下获得更有效的训练数据和更优秀的训练效果。

③ 利用解释性强的有关技术，增强模型的可解释性和透明度，同时尝试提高模型的多模态数据融合能力。在深度学习研究领域，深度学习模型通常被认为是“黑箱”。这是因为其可解释性（Interpretability）较低，获取分析判断过程的数据比较困难。然而，在病理学领域，诊断依据和诊断过程尤为重要，医生需要完整的分析过程才能做出合理的诊断。因此我们希望通过探索和利用解释性强的AI技术，如注意力机制和显著图等，为医生和病理学家提供更加透明、更加可见的临床诊断依据。除此之外，多模态数据融合（Multimodal Fusion）在处理不完整或噪声数据时表现出更强的鲁棒性，这对于实际临床环境中的病理图像分析也相当重要。我们会尝试添加一些辅助算法来提高模型的多模态数据融合能力，从而提高其全面分析的能力。

项目研究进度安排:

（1）2024年10月-2024年11月：熟练掌握Python，并学会相关第三方库函数的使用。积累有关深度学习、Pytorch框架等的基本知识，掌握基础的机器学习算法，如逻辑回归、支持向量机（SVM）、决策树和随机森林等，为后续深入学习、代码编写和算法实现奠定基础。

（2）2024年12月-2025年4月：在指导老师的帮助下，阅读相关领域的前沿论文和书籍，特别是关于病理图像分类和分析的算法，如CPLIP模型和Path-CLIP框架等。深入学习卷积神经网络（CNN）、循环神经网络（RNN）、Transformer模型等，并着手实现相对简单的模型。进一步完善课题的创新点，初步设计基于深度学习的超大病理图像分类模型。

（3）2025年5月-2025年9月：持续深入学习相关内容，不断完善所设计的基于深度学习的超大病理图像分类模型，如根据项目需求，优化已学习的算法，特别是针对超大病理图像数据集的处理和分类；基于视觉-语言对齐（Visual Language Alignment）技术提升模型性能；探索多模态融合技术在病理图像分析中的应用，以提高模型的准确性和鲁棒性；关注弱监督、半监督和自监督学习方法，以减少对大量精确标注数据的依赖等。

（4）2025年10月-2025年12月：阶段性总结整理。对所提出的基于深度学习的超大病理图像分类的方法进行梳理并进一步完善设计，收集并整理实验结果，绘制相应的图表，撰写相关专利和论文。

（5）2025年12月-2026年3月：进行必要的补充实验和模型性能优化。收集并整理实验结果，撰写相关论文。

（6）2026年4月-2026年6月：对项目中的方案从理论到实验进行全面梳理和总结，书写相关文档，整理代码保证可复现性和易读性，准备结题报告。

已有基础:

与本项目有关的研究积累和已取得的成绩:

本课题指导老师为周芹老师(特聘副研究员)。她主持一项国家自然科学基项目，该项目聚焦多中心场景的医疗图像分割任务，并结合小样本学习、多模态学习来解决多中心数据联合训练时遇到的小样本问题和多模态数据联合训练困难的问题。她的研究领域涉及医疗图像处理和机器学习。在领域内的顶级期刊、会议发表论文20余篇，具有丰富的科研与实践经验。

已具备的条件，尚缺少的条件及解决方法:

已具备的条件

1.具有电脑等实验仪器与设备供组员进行深度学习等相关模型的开发和调试；

2.图书馆提供海量书籍和报刊杂志等文献可供查阅；

3.线上有大量文本、音频、视频资料可供参考；

4.指导老师会在项目进行的全过程提供及时的指导和帮助。

尚缺少的条件及解决方法

1.缺少实验必须的具备高算力的GPU等硬件。解决方案是利用项目经费购买。

2.项目成员的经验不够充足。解决方案是在指导老师的带领下不断深入学习、研究，在实验中积累经验，最终取得成果。

经费预算

开支科目	预算经费（元）	主要用途	阶段下达经费计划（元）
开支科目	预算经费（元）	主要用途	前半阶段	后半阶段
预算经费总额	13500.00	无	5750.00	7750.00
1. 业务费	8500.00	无	2750.00	5750.00
（1）计算、分析、测试费	800.00	无	300.00	500.00
（2）能源动力费	0.00	无	0.00	0.00
（3）会议、差旅费	3700.00	差旅费1200元；学术会议、网课等2500元	1700.00	2000.00
（4）文献检索费	1500.00	无	750.00	750.00
（5）论文出版费	2500.00	无	0.00	2500.00
2. 仪器设备购置费	3000.00	无	2000.00	1000.00
3. 实验装置试制费	1000.00	无	500.00	500.00
4. 材料费	1000.00	无	500.00	500.00

项目附件

2025大创项目申报书终稿.doc

下载

结束

大学生创新创业训练计划管理系统

创新创业管理系统

详情