摘 要: 近年来, 大数据环境下幂级式增长的海量训练样本为癌症的诊断带来了数据资源, 同时互联网的发展促进了深度学习开源框架的应用水平, 推动了图像数据的精细化自动分类进入深度挖掘阶段。基于深度学习量化的核特征和派生特征可解决肿瘤细胞样本分类问题, 因此肿瘤细胞病理学的研究为癌症的早期筛查和准确诊断提供条件。如何学习出更高层次的可视化特征网络模型, 以及如何习得快速高效特异性强的新学习方法, 需要高判别性、高稳定性及较好鲁棒性的肿瘤细胞自动分类学习算法应于临床诊断治疗中。
关键词: 深度学习; 精细化; 自动分类; 可视化特征; 肿瘤细胞;
癌症是全球第三大死因, 已成为公众聚焦的健康问题, 在中国是首要死因。癌症的早期筛查和准确诊断是极为重要的。据2015年统计, 中国有429.2万例新发病例, 281.4万例死亡病例[1]。癌的种类居多, 如胃癌、肺癌、乳房恶性肿瘤、肠癌、皮肤癌、前列腺癌等。肿瘤细胞病理学理论根据肿瘤的形态学和生物学行为, 肿瘤类型大致分为良性、恶性和交界性这三类。量化的病理特征可解决细胞样本分类问题, 同时能够辅助医生实现病理诊断[2], 因此从细胞这一层次分析预测是可行的。在整个病情诊断过程中, 医学图像信息的获取和有效处理是最关键的步骤。信息论认知中强调“没有预处理是最好的预处理”。深度学习避免了传统机器学习算法中所需的复杂预处理过程, 依据端到端模型, 可直接从训练数据出发自动学习抽象知识。现阶段, 足够的医学资源存在不可用问题, 如何更好地发掘、利用好有限病理图像数据本身的价值成为一个迫切需要解决的问题。深度学习中有效的医学图像特征提取能够降低对分类算法的依赖性, 同时制约着整个分类器的性能。因此, 基于深度学习的医学肿瘤细胞病理图像的自动分类[3]成为解决问题的有效举措。
1、 深度学习在医学图像分析中的发展
近年来, 随着深度学习在语音图像识别和自然语言处理等领域中突飞猛进的发展, 深度学习在医学图像中的研究成为热点, 充分挖掘了大数据的潜在价值[4]。2017年, 斯坦福大学的研究者发表在《Nature》杂志上的研究“达到皮肤病学家水平对皮肤癌的分类”, 是深度学习在人工智能 (AI) 领域的里程碑式发展。
应用于病理学图像分析的深度学习网络主要有基于受限玻耳兹曼机模型的深度信念网络 (deep belief network, DBN) 、卷积神经网络 (convolutional neural network, CNN) 、稀疏自动编码器 (sparse autoencode, SAE) 、降噪自动编码器 (denoising auto-encode, DAE) 以及它们的改进算法[5]。深度学习是一种数据驱动 (通过自主调度提升任务准确度) 的学习方法, 有特定结构和训练的多隐含层神经网络, 其思想源于人脑对视觉信息的层次式处理。非线性激活函数ReLU和防过拟合函数Dropout的提出推动了CNN的再次流行。CNN利用空间的相对关系减少参数数目以提高训练速度, 可在同一深层的最优化中实现特征提取、特征选择及特征分类这3个核心步骤[6], 还可以根据需求将输出的特征进行特定处理后再输入分类器, 较手工提取特征的方法能够更好地表达特征和区分细胞。由此, 深度学习在病理特征选择和分类上具有不可比拟的优势。
现阶段, 病理图像有标记的数据集较少, 良恶性病变的各种细胞学标准中存在重叠, 处理过程中的不充分非代表性抽样等可能导致不确切诊断。因此, 在实现肿瘤细胞图像的自动精准分类处理过程中, 样本信息的准确获取和有效处理是关键, 如何更充分地利用好数据集本身的价值也是一个迫切需要解决的问题。
基于标准化的样本集, 结合专家知识强化深度学习模型, 可以实现肿瘤细胞图像的自动分类, 以最小代价找到诊断金标准, 以底层视觉特征映射高层语义 (图1) [7], 最终提升医师临床诊断能力。网络的深度和参数的最优化是影响特征提取效果的两个最重要的因素[8], 图形处理器并行计算的发展和大数据环境下的训练集为参数的调试以及深度的延拓提供便捷。如何评价深度学习获得的特征的优劣, 以及如何将所学特征充分、合理地应用于病理学诊断中也是目前有待解决的问题和难题。
图1 基于知识架构的医学图像处理原理图
2、 基于深度学习进行医学图像分析的新型网络设计
目前, CNNs是深度学习应用于医学图像较多的分类算法 (图2) 。基于这种架构, 对图像病理特征进行深层学习, 最后综合网络收敛性、分类精度和训练速度等多指标, 得到性能更为优越的深度学习网络, 解决医学图像的精确分类和准确诊断。
图2 基于深度学习的医学图像处理框图
近来, 有学者提出一种基于人群特征进行动态微调[9]的卷积神经网络, 对非完美标签做适当处理后, 以半监督方式学习人群特征[10]。在分类匹配的准确性问题上, 引入多尺度卷积和反褶积 (内核不大于3×3) , 通过样例重构学习交叉域特征的紧凑深层神经网络 (deep neural networks, DNN) [11], 以GoogLeNet59%的参数数量获得同水平的分类精度。针对缺乏训练的小样本图像, 利用新构网络 (vggm) 进行深度特征提取, 然后基于pairwise SVM[12]完成多分类的高识别率;针对不平衡分类问题, 利用深度卷积神经网络进行脑肿瘤自动分类, 在关键性能指标中取得优势;针对正负样本严重不均衡的医学小数据集, 经联合训练和二次迁移也能够明显提升系统性能[8]。因此, 在样本缺乏条件下, 通过改进网络架构、样例重构、数据增强、迁移训练等途径均可提高深度学习下的分类准确度, 对于医学图像的病理细胞分类来说有着借鉴性意义。
深度学习成为当前监督学习的主流, 特别是在医学领域图像分类精度上, 近年来众多学者做出不断努力。对于图像分类, 有学者提出将新设计的激活函数PRetan用于RNN的高维数据处理[13], 具有较高学习速率且无分歧风险的特点, 这种新颖的递归网络较SVM-RBF和CNN提供了更高的统计精度。对于病理图像的自动分类问题, 采用GoogLeNet和统计学相结合的方法对37例乳腺细胞样本中感兴趣区域进行目标测试[14], 细胞分类准确度达到87%, 较单一GoogLeNet提高了8%;采用PFTAS+QDA/SVM/RF (PFTAS, Parameter-Free Threshold Adjacency Statistics;QDA, Quadratic Discriminant Analysis;RF, Random Forests) 不同融合策略的深度学习方法[15], 较基于放大倍数独立的CNN算法更具区分性, 识别率高达91%, 有较好的鲁棒性和泛化性。在肿瘤细胞的病理学研究中, 需要进一步加强更优秀的融合策略, 以实现细胞的精准 (100%) 分类。
3、 肿瘤细胞分类进展
细胞学的标准:核大小、核形状、核膜、核染色质和细胞/核多形性特征。在鉴别微巧化良恶性方面, 可以通过形态学、分布、纹理特征等来区分良恶性[16]。同一患者不同来源标本癌细胞会有差别;同一标本类型不同患者细胞形态有所不同;同一病理类型不同标本细胞形态不同[17]。潘浩等[16]根据肺癌细胞间分布特性和拓扑特征的联系, 采用CoxLasso和随机森林方法进行特征选取的分类效果明显。
现有技术量化诊断的细胞学标准是形态计量、密度、结构和结构的技术特性;其次是模式识别技术用于预测异常。基于细节分类不够敏感和输入图像大小受限问题, 苏宝星[18]提出卷积置信网络对肺部图像进行分类, 对比分析了传统特征提取的分类算法和基于DBN、CNN和AE的单一分类算法的分类效果, 在交叉验证中证明了提出方法的有效性。CNNs在细胞的识别步骤中, 对于尺寸和形变较大、有细胞重叠的图像采用定量的细胞分割方法进行目标区域的定位, 使用弱监督回归模型检测细胞, 红细胞的F1-value达到96%[19], 为肿瘤细胞的分类提供借鉴。
目前, 一些三甲医院对优秀病理资源的共享意识较为淡薄。针对公开数据大量缺乏问题, 通过AggNet直接从乳腺癌有丝分裂细胞数据汇总的人群中学习多尺度CNN[20], 得到较好的分类准确度为87%, 对于患者的精准诊断还有较大空间。因此, 加强优秀病理资源的共享有利于深度学习下的肿瘤细胞的病理研究。
近年来, 研究者们在病理细胞的检测与分类上取得了重要进展。基于ICPR 2014的数据集下的HEp-2细胞通过无预处理和无数据增强的GoogLeNet较LeNet、AlexNet等处理方法[21], ACC (98.2%) 最高, 但耗时较长。Hou等[22]识别出胶质瘤细胞核的9个细微的重要的病理学特征, ACC为97.8%, 而传统+SVM方法为77.8%, 为了解肿瘤微环境提供了重要依据。基于威斯康星乳腺癌数据集 (WBCD) 利用DBN得到的ACC为99.7%[23], 稳定性偏弱, 对于一般的病理图像不具推广性。基于乳腺癌病理细胞样本染色校正处理较一般CNN准确率提高, ACC达到95.6%[24], 但整个过程耗时较长。Sirinukunwattana等[25]以100例结直肠腺癌的染色组织学图像为研究对象, 采用空间约束CNN进行核探测、邻近集成预测进行核分类的定量分析, F1-value为0.784, 多分类下的AUC为0.917, 具有弱一般性 (特别是对于上皮和成纤维细胞) ;采用半监督式的CNN+SVM+VGG16[26]对脑胶质瘤病理组织处理得到的AUC均值为0.911, 具有弱一般性;基于RCNN (Region-based Convolution Neural Networks) 算法改进的Faster RCNN, 在病理图像公开数据集上针对细胞核检测和核分裂象检测取得了突出成果[27], 为RCNNs在肿瘤细胞的检测与分类的应用上提供借鉴性意义。潘浩等[28]采用弱监督和DCNN结合的方法, 对肺肿瘤细胞NLST进行处理获得的时间标准偏差为0.668, 对比Arteta的时间标准偏差为4.819, 有了较大提升, 其F1-value为0.860, 学习率上还有提升空间。因此, 对于肿瘤细胞病理学研究的快速精准分类识别问题上, 除了借鉴优秀的分类识别方法, 需要鲁棒性更高的算法提升学习速率。
4、 展望
基于肿瘤细胞进行的病理学算法分析, 为后续研究提供借鉴意义, 为临床医生癌症诊断任务的完成提供方便。据图像数据集的特点, 归纳总结了文献中提出的不同处理方案。在实际应用中仍存在大量问题, 如病理标注样本不足问题, 数据标注的置信度问题, 特征提取的主观差异性问题等。深度学习网络中端对端结构更适合于大数据下的病理学分析。就目前肿瘤细胞病理研究领域形势来看, 可从以下发展方向进行分析预测:第一, 从多角度获取有效信息, 将人类智慧同训练手段结合, 将必要的预处理与深度学习结合, 将需求同优秀病理资源的获取结合。第二, 加强制片标准化问题, 如标注方式、时间和尺寸等, 尽可能避免因染色深浅等带来的过失误差, 构建可行性高、特异性强的标准细胞库是精准分类的基础。第三, 在设计深度学习架构中, 结合优秀的学习方法, 尝试无预处理和无数据增强等新颖方案, 如通过预训练 (VGG-16微调) 获得更好分类效果、采用权重共表达的网络融合策略、混合使用多种激活函数提高网络收敛性、对多特征实施分治管理等。第四, 可将深度学习算法扩展到病理细胞的检测定位中, 如尝试将RCNNs应用在肿瘤细胞的自动分类上。总之, 以减少医生工作量为主线, 规范样片标准化问题, 实现计算机辅助的高诊断性, 以提高自动化分类性能为目的, 得到切实可行可靠的评估方案。基于深度学习的联合检测和分类是实现对病理细胞的精准化自动化快速分类的导向。设计具有高判别性、高稳定性以及鲁棒性较好的病理细胞分类算法, 进一步提高癌症的诊断水准, 为后续病理细胞的检测定位研究提供方便。
参考文献:
[1]陈万青.CA:2015中国癌症统计数据发布[J].中国医学创新, 2016, 13 (5) :6.
[2]闫雯, 汤烨, 张益肇, 等.深度学习在数字病理中的应用[J].中国生物医学工程学报, 2018, 37 (1) :95-105.
[3]Wang P, Hu X, Li Y, et al.Automatic cell nuclei segmentation and classification of breast cancer histopathology images[J].Signal Process, 2016, 122:1-13.
[4]马世龙, 乌尼日其其格, 李小平.大数据与深度学习综述[J].智能系统学报, 2016, 11 (6) :728-742.
[5]陈诗慧, 刘维湘, 秦璟, 等.基于深度学习和医学图像的癌症计算机辅助诊断研究进展[J].生物医学工程学杂志, 2017, 34 (2) :314-319.
[6]Cheng JZ, Ni D, Chou YH, et al.Computer-aided diagnosis with deep learning architecture:applications to breast lesions in US images and pulmonary nodules in CT scans[J].SciRep, 2016, 6:24454.
[7]Chen Z, Strange H, Oliver A, et al.Topological modeling and classification of mammographic microcalcification clusters[J].IEEE Trans Biomed, 2015, 62 (4) :1203-1214.
[8]Spanhol FA, Oliveira LS, Petitjean C, et al.A dataset for breast cancer histopathological image classification[J].IEEE Trans Biomed Eng, 2016, 63 (7) :1455-1462.
[9]Zhou L, Tang S, Xiao J, et al.Disambiguating named entities with deep supervised learning via crowd labels[J].Front Inform Tech EL, 2017, 18 (1) :97-106.
[10]于观贞, 魏培莲, 陈颖, 等.人工智能在肿瘤病理诊断和评估中的应用与思考[J].第二军医大学学报, 2017, 38 (11) :1349-1354.
[11]Wu C, Wen W, Afzal T, et al.A compact dnn:Approaching googlenet-level accuracy of classification and domain adaptation[C]∥IEEE Conf.on CVPR, 2017:5668-5677.
[12]Omara I, Wu X, Zhang H, et al.Learning pairwise SVM on deep features for ear recognition[C]∥IEEE/ACIS ICIS, 2017:341-346.
[13]Mou L, Ghamisi P, Zhu XX.Deep Recurrent Neural Networks for Hyperspectral Image Classification[J].IEEE T GeoSCI Remote, 2017, 55 (7) :3639-3655.
[14]Garud H, Karri SPK, Sheet D, et al.High-magnification Multiviews Based Classification of Breast Fine Needle Aspiration Cytology Cell Samples using Fusion of Decisions from Deep Convolutional Networks[C]∥IEEE Conf.on CVPR, 2017:76-81
[15]何雪英, 韩忠义, 魏本征.基于深度学习的乳腺癌病理图像自动分类[J].计算机工程与应用, 2018, 54 (12) :121-125.
[16]潘浩, 王昭, 姚佳文.深度学习在肺癌患者生存预测中的应用研究[J].计算机工程与应用, 2018, 54 (14) :138-142, 235.
[17]王彬阶, 胡丽, 崔天盆, 等.不同来源标本细胞病理学联合检查在肺癌诊断中的价值[J].检验医学, 2016, 31 (1) :13-16.
[18]苏宝星.基于深度学习的医学图像模式分类研究[D].金华:浙江师范大学, 2016.
[19]陶源, 王佳飞, 杜俊龙, 等.基于卷积神经网络的细胞识别[J].中国医学物理学杂志, 2017, 34 (1) :53-57.
[20]Albarqouni S, Baur C, Achilles F, et al.Aggnet:deep learning from crowds for mitosis detection in breast cancer histology images[J].IEEE Trans Med Imaging, 2016, 35 (5) :1313-1321.
[21]Rodrigues LF, Naldi MC, Mari JF.Exploiting Convolutional Neural Networks and preprocessing techniques for HEp-2 cell classification in immunofluorescence images[C]∥IEEE Conf.on SIB-GRAP, 2017:170-177.
[22]Hou L, Singh K, Samaras D, et al.Automatic histopathology image analysis with CNNs[C]∥NYSDS IEEE, 2016:1-6.
[23]Abdel-Zaher AM, Eldeib AM.Breast cancer classification using deep belief networks[J].Expert Syst Appl, 2016, 46:139-144.
[24]杨金鑫.基于深度学习的细胞图像分割与识别算法研究[D].北京:北京邮电大学, 2017.
[25]Sirinukunwattana K, Ahmed Raza SE, Tsang YW, et al.Locality sensitive deep learning for detection and classification of nuclei in routine colon cancer histology images[J].IEEE Trans Med Imaging, 2016, 35 (5) :1196-1206.
[26]Xu Y, Jia Z, Ai Y, et al.Deep convolutional activation features for large scale brain tumor histopathology image classification and segmentation[C]∥ICASSP, 2015:947-951.
[27]何剑.目标检测算法在乳腺病理图像分析中的应用[D].杭州:浙江大学, 2017.
[28]潘浩, 王昭.基于深度学习的肺癌细胞检测方法研究[J].自动化与仪器仪表, 2017 (3) :196-197, 200.