【摘要】 目的 验证不同变量选择方法对临床预测模型性能的影响。方法 从 MIMIC 数据库中提取了
3 组样本数据集(急性心肌梗塞组、脓毒症组和脑出血组),用 COX 回归的直接进入、逐步向前、逐步向后、
LASSO、岭回归、基于随机森林的变量重要性六种方法,选出的不同方法的最优变量集构建模型,通过 C 指数、受
试者工作特征曲线下面积(AUC 值)和校准曲线,比较组内和组间的结果差异。结果 6 种变量选择方法筛选的
变量及数目各不相同,但不管是组内还是组间,并没有显示出哪种方法有明显提高模型性能的优势。结论 在使
用变量选择方法建立临床预测模型前应首先明确研究目的并判断数据的类型,结合医学知识选择合适的方法。
【关键词】 变量选择;临床预测模型;MIMIC 数据库;模型建立
- 研究背景:心外科手术患者ICU住院时间的预测对早期干预、成本控制和治疗护理具有重要意义。
- 研究方法:使用MIMIC-IV数据库中的7567名患者数据,通过最小绝对收缩选择算子(Lasso)从126个影响因子中筛选出41个重要预测因子,构建基于梯度增强决策树(GBDT)算法的预测模型。
- 实验结果:GBDT模型的平均准确率为0.688,高于传统逻辑回归(LR)算法的0.603。基于筛选出的重要预测因子的GBDT算法与基于全体因子的GBDT算法在最终平均准确率上效果相同,说明该方法可以优化数据采集,准确预测住院时间。
- 研究意义:合理预测心脏手术患者的治疗时间,对ICU患者手术治疗效果的评估有重要意义。该研究为临床决策支持系统提供了算法支撑。
- 关键词:心脏手术、重症监护室、住院时间、机器学习。
论文还详细讨论了以下方面:
- 梯度提升决策树(GBDT):一种迭代的决策树算法,用于提高分类器的准确率。
- Lasso回归:一种正规化线性回归方法,用于特征选择和防止过拟合。
- 数据集:使用MIMIC-IV数据库,包含2008年至2019年间的患者信息。
- 患者纳入和数据预处理:纳入了7567名心脏手术患者,提取了ICU住院前12小时内的数据,包括心率、收缩压等38个特征。
- 预测因子筛选的临床意义:Lasso回归筛选出的影响ICU住院时间的重要预测因子,如诊断个数、手术个数、乳酸盐浓度等。
- GBDT模型参数优化:通过网格搜索优化模型参数,确定分类模型的重要参数。
- 住院时间预测结果分析:GBDT模型在预测心外科患者ICU住院时间方面取得了较好的效果,对临床决策有一定的指导作用。
关注公众号【科研收录】, 回复“MIMIC20240711”获取论文原文