1、不同机器学习模型鉴别结肠型克罗恩病与溃疡性结肠炎的价值杜晨李翠平王侠樊梦思孟帅吴兴旺基金项目:安徽省学术技术带头人科研项目(编号:2021D299)作者单位:230022安徽合肥安徽医科大学第一附属医院放射科通信作者:吴兴旺,duobi2004126 com 摘要 目的比较不同的机器学习模型在鉴别结肠型克罗恩病(CCD)与溃疡性结肠炎(UC)中的价值。方法收集2019年 6 月至 2021 年 12 月在安徽医科大学第一附属医院消化科就诊的有完整 CT 小肠成像(CTE)且经病理证实炎症性肠病(IBD)患者 44 例(CCD 25 例,UC 19 例)。利用 ITK Snap 软件在静脉期病灶
2、最明显肠段进行勾画,共计勾画 106 个病变肠段(CCD 58 个、UC 48 个)。利用 AK 软件提取勾画区影像组学特征,以 7 3 比例随机分为训练集和测试集;对训练集用 Correlation_xx 和 MultiVari-ate_Logistic 算法进行数据降维,筛选组间差异明显的影像组学特征构建 6 种机器学习模型,用测试集的特征对其进行验证。结果175 种组学特征中有 4 种组间差异有统计学意义(P 0 05)。6 种模型中有 4 种模型曲线下面积均 0 90。训练集中邻近算法(KNN)模型鉴别 CCD 与 UC 的受试者工作特征曲线下面积(AUC)为0 958(95%CI:0
3、 917 0 992),准确率、特异度、灵敏度分别为 87 7%、100%和 72 7%;在测试集的 AUC 为 0 904(95%CI:0 792 0 996),准确率、特异度和灵敏度分别为 87 9%、88 9%和86 7%。结论4 种常用的机器学习模型在鉴别 CCD 与 UC 中均有良好的表现;其中 KNN 模型稳定性好,准确性更高。关键词 结肠型克罗恩病;溃疡性结肠炎;影像组学;机器学习模型doi:10.3969/j.issn.1000 0399.2023.01.004The value of different machine learning models in discrimin
4、ating colonic Crohn s disease from ulcerative colitisDU Chen,LICuiping,WANG Xia,FAN Mengsi,MENG shuai,WU XingwangDepartment of adiology,the First Affiliated Hospital of Anhui Medical University,Hefei 230022,ChinaFund project:Scientific research project of academic and technical leaders in Anhui Prov
5、ince(No 2021D299)Corresponding author:Wu Xingwang,duobi2004126 com Abstract ObjectiveTo compare the value of different machine learning models in distinguishing colonic Crohn s disease(CCD)from ulcerative colitis(UC)MethodsA total of 44 patients(25 CCD and 19 UC)with complete CT enterography(CTE)ima
6、ging andpathologically confirmed inflammation bowel diseases(IBD)were collected Itk snap software was used to outline the intestinal segmentswith the most obvious lesions at the venous phase imaging,and a total of 106 intestinal segments of lesions were delineated(58 CCD and 48UC)The radiomics featu
7、res of the delineation area were extracted by A K software and randomly divided into training set and test set in aratio of 7 3 The Correlation_xx and MultiVariate_Logistic algorithms were used to reduce the dimensionality of the training set,and six ma-chine learning models were constructed by scre
8、ening the radiomics features with obvious differences between the groups,and then verified bythe features of the test set esultsFour of the 175 radiomics characteristics differed significantly between groups Four of the six modelshave areas under the curve 0 90 The Area Under Curve(AUC)(95%CI),accur
9、acy,specificity,and sensitivity of KNN model in distin-guishing CCD from UC in training set were 0 958(0 917 0 992),87 7%,100%and 72 7%,respectively In the test set,AUC(95%CI)was 0 904(0 792 0 996),accuracy,specificity and sensitivity were 87 9%,88 9%and 86 7%,respectively ConclusionThemachine learn
10、ing models have good performance in discriminating CCD and UC KNN model has better stability and accuracy Key words Colonic Crohn s disease;Ulcerative colitis;adiomics;Machine learning models克罗恩病(Crohn s disease,CD)具有终身复发的倾向,表现为慢性反复交替感染和缓解的过程,没有诊断金标准1 2。CD 可以累及从口腔到直肠的任何部位,而溃疡性结肠炎(ulcerative colitis,
11、UC)只累及结直肠,当 CD 只累及结肠时,即结肠型 CD(ColonicCrohn s disease,CCD),就难以和 UC 鉴别。二者的病变分布、影像和内镜特征缺乏特异性,而 CD 和 UC 的治疗和预后有很大的区别。内镜结合病理检查是目前公认的鉴别诊断 UC 与 CD 的标准,病理发现特征性的非干酪样肉芽肿即可诊断 CD。然而,该方法复杂有创,并且常需多次、多点、多部位活检,导致患者耐受性差。71第 44 卷第 1 期安徽医学2023 年 1 月Anhui Medical Journal常规的影像学鉴别 CCD 和 UC 有很大的局限性3。2012 年荷兰学者 Lambin 等4 提
12、出影像组学的概念,即通过高通量挖掘图像内部的信息,利用机器学习构建各种模型,在疾病治疗、预后判断中发挥越来越重要的价值5。放射组学可以通过不同的机器学习算法输出客观分类和诊断模型,被称为医学成像与个性化医学之间的桥梁6。有单纯运用组学鉴别 CD 与UC,但是组学建模有很多学习方法,每一种机器学习方法的优缺点不同,在鉴别诊断中的效能各不相同7。本研究希望通过比较常用的机器学习方法构建的预测模型在 CCD 和 UC 鉴别诊断中的优势,为影像组学选择一种更优的建模方法和为临床选择一种准确性高的基于 CT 影像组学的预测模型提供参考,旨在治疗前准确的判断 CCD 和 UC,为临床合理选择药物和治疗策略
13、提供帮助。1资料与方法1 1一般资料收集 2019 年 6 月至 2021 年 12 月在安徽医科大学第一附属医院消化科就诊的经内镜或手术病理证实的 IBD 患者 44 例,其中男性 31 例、女性13 例,平均年龄(34 55 13 24)岁。1 2扫描方法机型:GE evolution CT。扫描参数:层厚5 mm、层间距5 mm、管电压120 kV、管电流215 mA、转速275 mm/rot、螺距13751,重建矩阵512 512。患者检查前 12 h 禁食,清洁肠道,检查前 1 h 开始口服2 5%的等渗甘露醇溶液 1 800 mL,分 5 次服完(前 4次每间隔15 min 口服4
14、00 mL,患者上扫描床前口服剩余200 mL 以充盈胃腔)。对于无山莨菪碱使用禁忌证的患者于扫描前 10 min 肌注 20 mg 山莨菪碱。1 3纳入排除标准纳入标准:能正常配合 CT 检查的患者;经活检病理检查或术后病理诊断为 CCD或 UC;图像质量良好,符合要求。排除标准:碘过敏者,不能配合检查的患者;图像不合格,如图像缺失、模糊、不完整等。1 4影像组学特征的提取与机器学习由 1 名具有5 年以上腹部 CT 诊断经验的医生使用 ITK Snap 软件(version 3 6,www itksnap org/)在静脉期图像病灶最明显层面沿增厚肠壁边缘手动勾画感兴趣区域(re-gion
15、 of interest,OI),见图 1。由 1 名从业 10 年以上的影像科医生对其进行验证,勾画时选取病变最明显且增厚肠壁边缘较清晰区域逐层勾画,避开肠壁外组织及肠腔,共勾画 106 个肠段(CCD 58 个,UC 48 个)。利用 AK 软件对提取的影像组学特征进行 Correlation 相关性研究,再以Correlation_xx 和MultiVariate_Logistic 算法进一步处理,筛选出最佳影像组学特征建立预测模型。注:A,静脉期病灶 CTE 图像;B,静脉期病灶 CTE 图像标示 OI 后;箭头示勾画后 OI。图 1OI 勾画前后 CTE 图像示例随机选择 70%病例
16、为训练集,30%病例为测试集。在训练组分别选择 logistic 回归、贝叶斯算法(na-ive Bayes,NB)、随机森林(random forest,F)、决策树(decision tree,DT)、邻近算法(knearestneighbor,KNN)和支持向量机(support vector machine,SVM)模型进行数据处理,将测试集结果作为评估分类器特性的重要指标,并按照准确率选取最优化分类器模块。1 5统计学方法采用 SPSS 25 0 统计软件进行统计分析。计量资料符合正态分布以 x s 表示,两组间比较采用独立样本 t 检验;偏态分布计量资料用M(P25,P75)表示,比较采用 Mann Whitney U 检验;计数资料以百分比表示,组间比较采用 2检验。以 P 0 05 为差异具有统计学意义。对于 P 0 05 的参数绘制受试者工作特征(receiver operating characteristic,OC)曲线,并计算曲线下面积(area under the cure,AUC)。2结果2 1一般资料CCD 组患者男性 18 例、女性 7 例,年龄(27