·论 著·
流行性感冒是一种急性呼吸道传染病,是人类面临的主要公共卫生问题之一[1]。其中甲型流行性感冒病毒通过抗原漂移每1~2年会发生局部爆发,经过抗原转变,每10~20年就会出现世界范围内的大流行,故甲型流行性感冒病毒危害最大[2-3]。高危人群患病后预后多较差,儿童因全身免疫功能及器官发育不成熟,机体抵抗力低,感染甲型流行性感冒后容易发生严重并发症,其中最常见的为并发肺炎[4]。临床上儿童甲型流行性感冒并发轻度/重度肺炎患儿已有较为成熟的诊疗方案,但并发危重症肺炎的患儿因具有病情危重、预后差等特点仍是临床医师关注的重点,及早诊断治疗对改善患儿预后非常重要[5]。但临床医师多基于临床经验主观进行相关诊断,仍有较多患儿贻误病情;目前临床上没有针对儿童甲型流行性感冒并发危重症肺炎的客观诊断预测模型及危险因数分析报道,近年随着机器学习技术的发展为构建儿童甲型流行性感冒并发危重症肺炎个体化诊断预测模型及个体化高危因素挖掘提供了契机,本课题开展相关研究,现报告如下。
1.1 一般资料 选择2014—2017年我院收治的儿童甲型流行性感冒H1N1肺炎患儿。流行性感冒的诊断标准以2015版儿童流行性感冒诊断与治疗专家共识为准[6]。儿童甲型流行性感冒并发轻症、重症肺炎病例诊断标准参考WHO规定的诊断标准[7],危重症病例指出现以下情况之一者:呼吸衰竭、感染中毒性休克、多脏器功能不全、出现其他需要临床监护的症状[8]。
本研究经医院医学伦理委员会批准通过。
1.2 方法
1.2.1 数据采集及预处理 收集全部临床数据,进行清洗及预处理,包括处理数据缺失值、属性编码,进行数据标准化正则化、特征选择等内容。全部维度包括性别、年龄、流行性感冒病毒H分型、发热时间、发热程度、咳喘程度、合并先天性疾病、白细胞、中性粒细胞、淋巴细胞、单核细胞、C反应蛋白(C-reactive protein,CRP)、降钙素原(procalcitonin,PCT)、气管镜、呼吸衰竭、心力衰竭、胸腔积液、胸部X线片、痰培养、混合菌或病毒、总T细胞(CD3)、辅助T细胞(CD4)、抑制T细胞(CD8)、CD4/CD8、总B细胞、NK细胞(CD56),共25个维度。纳入儿童甲型流行性感冒并发肺炎患儿的临床资料见表1。
1.2.2 机器学习XGBoost算法模型的构建 分别基于临床全指标和临床常用指标构建全指标预测模型和临床常用指标预测模型,均采用CART分类回归树作为学习器构建XGBoost算法。XGBoost的目标函数由损失函数和正则化项2个部分和1个常数项组成[9]。公式为:Obj(θ)=L(θ)+ Ω(θ)+C。基于XGBoost算法的儿童甲型流行性感冒并发危重症肺炎的诊断预测模型构建示意图,见图1。全指标预测模型和临床常用指标预测模型构建过程中的机器学习参数为,SET params as:booster=gbtree,bjective=binary:logistic,eta=0.3,gamma=5,max_depth=6,min_child_weight=1,subsample=1,colsample_bytree=1。
1.3 观察指标 比较2套诊断预测模型的准确度、敏感度、特异度、阳性预测值、阴性预测值,比较ROC曲线下面积(area under curve,AUC);确定2套预测模型中预测因子的重要性排名。解读并分析2套诊断预测模型的个体化应用及危险因素。采用R语言进行机器学习XGBoost算法模型构建儿童甲型流行性感冒并发危重症肺炎诊断预测模型。
表1 173例儿童甲型流行性感冒并发肺炎患儿临床资料分析
Table 1 Analysis of clinical data of 173 children with influenza A complicated with pneumonia
计数资料例数(%)性别 男性98(56.6) 女性75(43.4)H分型 H1N1158(91.3) H313(7.5) H3N2 2(1.2)发热程度 中度热37(21.4) 中高度热1(0.6) 高热135(78.0)咳喘程度 无喘息6(3.5) 轻度喘息46(26.6) 中度喘息56(32.4) 重度喘息64(37.0) 咳嗽1(0.6)合并先天性疾病 先心病 7(4.0) 哮喘13(7.5) 有蚊虫叮咬过敏 1(0.6) 有喘息史 3(1.7)气管镜 塑型 7(4.0) 黏液栓 2(1.2)呼吸衰竭61(35.3)心力衰竭 9(5.2)胸腔积液 8(4.6)胸部X线片 淡片影120(69.4) 实变影9(5.2) 支气管炎12(6.9) 肺炎7(4.0) 支气管肺炎8(4.6) 肺不张2(1.2) 肺实变14(8.1) 急性呼吸窘迫综合征1(0.6)痰培养 肺炎链球菌8(4.6) 卡他莫拉菌1(0.6) 流行性感冒嗜血杆菌4(2.3) 肺炎克雷伯1(0.6) 鲍曼不动杆菌2(1.2) 金黄色葡萄球菌1(0.6) 肺炎支原体MP2(1.2)混合菌或病毒 肺炎支原体11(6.4) 副流行性感冒10(5.8) 呼吸道合胞病毒12(6.9) 博卡病毒8(4.6) 偏肺病毒6(3.5) 鼻病毒8(4.6) 腺病毒5(2.9) 合并2种病毒6(3.5) 合并3种病毒4(2.3) 合并4种病毒1(0.6)病情分度 轻度/重度132(76.3) 危重症41(23.7)计量资料最小值~最大值(x-±s)
年龄(月)4~120(36.1±25.9)发热时间(d)2~25(6.78±0.13) 白细胞(×109/L)2.7~35.5(9.6±4.6)中性粒细胞(×109/L)0.9~95.5(57.4±18.0)淋巴细胞(×109/L)2.5~77.7(32.6±17.1)单核细胞(×109/L)0.3~22.4(8.3±3.5)CRP(mg/L)0.0~140.4(13.4±17.8)PCT(μg/L)0.0~18.2(8.4±1.7)总T细胞(CD3,%)37.3~80.1(60.2±8.4)辅助T细胞(CD4,%)16.7~55.1(34.7±7.4)抑制T细胞(CD8,%)10.7~35.5(21.5±4.7)CD4/CD80.5~4.8(1.7±0.7)总B细胞(%)9.5~40.7(20.5±5.9)NK细胞(CD56%)1.0~30.5(8.4±5.5)
图1 儿童甲型流行性感冒并发危重症肺炎的XGboost模型
Figure 1 XGboost model of influenza A in children with severe pneumonia
2.1 模型结局变量及自变量的选择及及设定 采用机器学习XGBoost算法对纳入的记录进行学习并构建预测模型。纳入的记录要求为:结局变量不缺失,自变量可部分缺失。结局变量(Y):全指标预测模型和临床常用指标预测模型的结局变量均为病情分度。自变量预测因子(X):①全指标预测模型的自变量预测因子(X),将收集的患者数据各维度全面纳入为预测因子,包括性别、年龄、流行性感冒病毒H分型、发热时间、发热程度、咳喘程度、合并先天性疾病、白细胞、中性粒细胞、淋巴细胞、单核细胞、CRP、PCT、气管镜、呼吸衰竭、心力衰竭、胸腔积液、胸部X线片、痰培养、混合菌或病毒、总T细胞(CD3)、辅助T细胞(CD4)、抑制T细胞(CD8)、CD4/CD8、总B细胞、NK(CD56),共25个维度。②临床常用指标预测模型的自变量预测因子(X),基于临床常用判断儿童甲型流行性感冒病情严重程度指标构建模型,包括年龄、合并先天性疾病、白细胞、CRP、气管镜、呼吸衰竭、胸部X线片、混合菌或病毒,共8个维度。
2.2 诊断预测模型结果与观察结果的四格表及统计检验结果 全指标预测模型的准确度、模型诊断结果与观察结果一致性判断指标Kappa值、ROC曲线下面积、敏感度、阳性预测值、阴性预测值均优于临床常用指标预测模型。全指标预测模型四格表见表2;临床常用指标预测模型的四格表见表3;两模型相关统计指标见表4,ROC曲线见图2,3。
表2 全指标预测模型的四格表
Table 2 Four-grid
Table of the full index prediction model (例数)
预测结果观测结果轻度/重度危重症轻度/重度1282危重症 439
表3 临床常用指标预测模型的四格表
Table 3 Four-grid
Table of prediction models of the commonly used clinical indicators (例数)
预测结果观测结果轻度/重度危重症轻度/重度1212危重症 1139
表4 全指标预测模型和临床常用指标预测模型四格表相关统计值
Table 4 Correlation statistics of the four index tables for the full index prediction model and the commonly used clinicalindex prediction model
模型Kappa值敏感度特异度准确度阳性预测值阴性预测值ROC曲线下面积95%CI全指标预测模型 0.905 70.969 70.951 20.965 30.984 60.907 00.992 70.926 0~0.987 2临床常用指标预测模型0.806 80.916 70.951 20.924 90.983 70.780 00.975 60.874 9~0.959 4
图2 基于全指标的诊断预测模型ROC曲线
Figure 2 ROC curve of the diagnostic prediction model based on all indexes
图3 基于临床常用指标的诊断预测模型ROC曲线
Figure 3 ROC curve of diagnostic prediction model based on commonly used clinical indexes
2.3 2个预测模型各预测变量的重要性排名 基于全指标的诊断预测因子主要有呼吸衰竭、咳喘程度(重度喘息)、总B细胞、单核细胞、发热时间(>15 d)、辅助T细胞(CD4)。基于临床常用指标的诊断预测因子主要有呼吸衰竭、胸部X线片(肺实变)、混合菌或病毒(无)、混合菌或病毒(支原体感染)。且全指标预测模型的各指标增益值(横坐标)明显优于临床常用指标预测模型的指标。见图4,5。
图4 基于全指标诊断预测因子重要性排名
Figure 4 Importance ranking of diagnostic predictors based on all indexes
图5 基于临床常用指标的诊断预测因子重要性排名
Figure 5 Importance ranking of diagnostic predictors based on commonly used indexes
2.4 基于机器学习技术构建的个体化诊断预测模型应用展示 基于机器学习技术针对真实世界儿童甲型流行性感冒并发重症肺炎患儿临床数据进行分析挖掘,可构建个体化诊断预测模型,并可对每例患儿出具预测图。以2个模型中随机患者为示范,展示个体化预测结果。全指标诊断预测模型显示其中1例儿童甲型流行性感冒并发危重症肺炎的可能性是59%,呼吸衰竭、咳喘程度(重度喘息)、总B细胞、发热时间(>15 d)、辅助T细胞(CD4)是危险因素,单核细胞是保护因素(图6)。临床常见指标诊断预测模型显示其中1例儿童甲型流行性感冒并发肺炎患儿是危重症的可能是42%,其中呼吸衰竭、混合菌感染(肺炎支原体)、胸部X线片提示肺炎是危险因素,无混合菌感染是保护因素(图7)。临床应用时,直接将新入院患儿临床数据直接录入机器学习软件中可直接展示对应的预测图,可知甲型流行性感冒患儿发生危重症肺炎的概率,并可针对危险因素进行相对应的预防措施,从而改善预后。
图6 基于全指标的诊断预测模型个体化预测结果
Figure 6 Individualized prediction results of the diagnostic prediction model based on all indexes
图7 基于临床常用指标的诊断预测模型个体化预测结果
Figure 7 Individualized prediction results of diagnostic prediction models based on the commonly used clinical indexes
甲型流行性感冒因具有变异、进化速度快、抗原多变、感染性和致病性强等特点,可造成广泛流行,以冬季最为常见。临床主要表现为发热、咳嗽、呼吸困难,较少出现喘息症状,重症病例病情进展迅速,可出现呼吸窘迫综合征甚至死亡[10];影像学表现中早期胸部X线片无特征性表现,进展期以肺实变为主[11],也可出现磨玻璃影[12],有学者报道并发重症肺炎的甲型流行性感冒患儿可出现支气管塑型[13]。目前临床上对于甲型流行性感冒并发轻度/重度肺炎的诊断、治疗已经较为熟练,且患儿疗效较好;但儿童甲型流行性感冒并发危重症患儿因病情重、预后差等特点,开展及时有效预防治疗非常重要[14],目前仍是临床医师关注研究的重点。且我省地处北方,冬季容易爆发流行性感冒,再加上自2015年开始我国全面开放二胎政策,儿童数量基数大,有必要深入研究做好儿童甲型流行性感冒并发危重症肺炎的诊治工作。
目前,临床上关于儿童甲型流行性感冒并发危重症肺炎的临床特征分析或危险因素分析研究报道非常少,内容上主要是根据临床医师经验、基于临床常见指标(年龄[15]、白细胞、CRP、气管镜[16]、呼吸衰竭、胸部X线片[17]、混合菌或病毒[18]、合并先天性疾病[13])开展初步诊断,缺乏较为客观诊断依据;更是没有儿童甲型流行性感冒并发危重症肺炎的诊断模型及危险因素分析挖掘的研究报道。基于甲型流行性感冒并发肺炎患儿的真实世界临床数据存在维度高、缺失值多等特点[19],传统Logistic回归分析无法较好地处理儿童甲型流行性感冒并发肺炎的真实世界结构复杂的临床数据,机器学习技术的出现为构建儿童甲型流行性感冒并发危重症肺炎的个体化诊断预测模型及危险因素分析挖掘提供了契机。XGBoost是一种基于梯度Boosting的集成学习算法,通过弱分类器的迭代计算实现准确的分类效果;XGBoost算法兼具线性模型和Boosted Tree模型的一种优化模型被广泛应用于人工智能、数据分析和统计学习等领域[20-21]。本课题组基于机器学习XGBoost算法技术,以CART回归树作为学习器,以是否诊断为儿童甲型流行性感冒并发危重症肺炎作为结局变量,以所纳入的临床全部指标为预测因子,对全部儿童甲型流行性感冒并发肺炎患儿真实世界临床数据进行训练和测试,并调整XGBoost主要参数,构建了儿童甲型流行性感冒并发危重症肺炎的个体化诊断预测模型及危险因素分析;同时为说明基于全临床指标作为预测因子构建的个体化诊断预测模型的价值更优,设计与单纯采用临床常用指标构建的模型进行比较,结果显示全指标预测模型的敏感度、准确度、Kappa值、AUC、阳性预测值、阴性预测值均优于临床常用指标预测模型。且基于全指标的诊断预测模型得出的主要预测指标的增益值高于基于临床常用指标构建诊断预测模型的主要预测指标,进一步证实了基于全指标的儿童甲型流行性感冒并发危重症肺炎的个体化诊断预测模型的价值。在应用上,基于机器学习XGBoost算法构建的儿童甲型流行性感冒并发危重症肺炎个体化诊断预测模型可对新入院的甲型流行性感冒并发肺炎患儿进行个体化诊断预测给出具体的发生危重症肺炎的概率,并可个体化挖掘该患儿的危险因素,从而针对性地指导临床及早预防治疗,实现开展精准预防治疗,最终改善疗效和预后。
综上所述,本课题组基于甲型流行性感冒并发肺炎患儿临床真实世界数据,采用机器学习技术,构建个体化诊断预测模型的应用价值较好,且可挖掘个体危险因素并进行精准预防治疗,从而改善预后,值得临床推广应用。另一方面,由基于临床全指标挖掘的高危因素可知,免疫指标总B细胞、单核细胞、辅助T细胞(CD4)与儿童甲型流行性感冒并发危重症肺炎关系密切,提示细胞免疫水平可能是是否发生危重症肺炎的关键,本课题组后续将继续开展相关研究探索并证实,一起进一步为儿童甲型流行性感冒并发危重症肺炎的治疗提供临床依据。
[1] 杨俊钧,锡池,严子禾.无锡地区急性呼吸道病毒感染住院儿童的病原学分析[J].昆明医科大学学报,2017,38(3):119-122.
[2] 袁洁,安淑华,杜雯瑾.2017—2018年冬春季呼吸科门诊儿童流感病例临床特点及治疗分析[J].河北医科大学学报,2018,39(8):953-957.
[3] Morris DH,Gosti KM,Pompei S,et al. Predictive modeling of influenza shows the promise of applied evolutionary biology[J]. Trends Microbiol,2018,26(2):102-118.
[4] 张新星,顾文婧,陈正荣,等.2006—2015年苏州地区呼吸道感染住院儿童甲型流感病毒感染流行特征分析[J].中华实验和临床病毒学杂志,2018,32(6):607-610.
[5] 卢志威,郑跃杰.深圳市19例重症流感死亡病例临床分析[J].中华实用儿科临床杂志,2019,34(2):139-141.
[6] 张锐沐,邓继岿.住院儿童流感后肺炎152例临床特征分析[J/CD].中华临床医师杂志(电子版),2017,11(2):217-221.
[7] 秦强,谢正德,申昆玲.美国感染病协会关于季节性流感诊断、治疗、药物预防和机构内流感暴发应对措施2018指南更新儿童相关内容解读[J].中华实用儿科临床杂志,2019,34(2):87-90.
[8] Chow EJ,Doyle JD,Uyeki TM. Influenza virus-related critical Ⅲ ness:prevention,diagnosis,treatment[J]. Crit Care,2019,23(1):214.
[9] 曲文龙,李一漪,周磊.XGBoost算法在糖尿病血糖预测中的应用[J].吉林师范大学学报(自然科学版),2019,40(4):118-125.
[10] 徐忠,李莺,华军,等.苏州地区儿童甲型和乙型流感临床特征比较[J].南京医科大学学报(自然科学版),2017,37(2):224-226,251.
[11] Bulgakova VA,Poromov AA,Grekova AI,et al. Pharmacoepidemiological study of the course of influenza and other acute respiratory viral infections in risk groups[J]. Ter Arkh,2017,89(1):62-71.
[12] Numata T,Hida N,Yazaki K,et al. Seasonal influenza vaccine-induced pneumonitis presenting with multiple pulmonary nodules[J]. Inter Med,2018,57(5):707-711.
[13] 许婧.蚌埠地区流感住院儿童流行病学、临床特征及重症病例分析[D].蚌埠:蚌埠医学院,2019.
[14] Committee on infectious diseases. Recommendations for prevention and control of influenza in children,2019-2020[J]. Pediatrics,2019,144(4):e20192478.
[15] Neyer VL,Woo JG,Siege RM. Severe obesity in children may not pose independent risk for influenza complications[J]. J Pediatr Nurs,2018,42:21-24.
[16] 许可,霍翔,戴启刚,等.流感肺炎的流行病学和临床特征及其重症影响因素分析[J].病毒学报,2018,34(6):810-816.
[17] Rodríguez A,Ferri C,Martin-Loeches I,et al. Risk factors for noninvasive ventilation failure in critically Ⅲ subjects with confirmed influenza infection[J]. Respir Care,2017,62(10):1307-1315.
[18] Guerche-Séblain CE,Moureau A,Schiffler C,et al. Epidemiology and burden of influenza in healthy children aged 6 to 35 months:analysis of data from the placebo arm of a phase Ⅲ efficacy trial[J]. BMC Infect Dis,2019,19(1):308.
[19] 张东伟,卢根.呼吸道病毒感染所致的儿童危重症诊治进展[J].中国实用儿科杂志,2019,34(2):111-116.
[20] 蔺轲,林瑜,孔桂兰.基于XGBoost算法的ICU脓毒症患者住院死亡风险预测研究[J].中国卫生信息管理杂志,2018,15(5):536-540,563.
[21] 张洪侠,郭贺,王金霞,等.基于XGBoost算法的2型糖尿病精准预测模型研究[J].中国实验诊断学,2018,22(3):408-412.