MIMIC数据库文献分享: 使用机器学习通过降低呼气末正压水平来预测机械通气成功脱机

Predicting Successful Weaning from Mechanical Ventilation by Reduction in Positive End-expiratory Pressure Level Using Machine Learning

摘要

在重症监护病房 (ICU) 中,使患者脱离机械通气 (MV) 是一个关键且资源密集的过程,会影响患者的治疗结果和医疗费用。不同提供者的断奶方法差异很大。

MV 延长与不良事件和更高的医疗费用相关。预测脱机准备情况是一个重要的过程,其中呼气末正压 (PEEP) 作为 MV 的重要组成部分,有可能具有指示性,但尚未用作目标。我们的目的是通过使用监督机器学习模型针对 PEEP 水平的变化来预测机械通气的成功脱机。

这项回顾性研究包括来自重症监护医疗信息市场 (MIMIC-IV) 和 eICU 协作研究数据库 (eICU-CRD) 的 12,153 名机械通气患者。

使用连续 PEEP 降低作为目标开发了两种机器学习模型(极端梯度提升和逻辑回归)。数据分为 80% 作为训练集和 20% 作为测试集。

该模型的预测性能使用 95% 置信区间 (CI) 报告,基于评估指标,例如受试者工作特征下面积 (AUROC)、精确回忆曲线下面积 (AUPRC)、F1 分数、召回率、阳性预测值(PPV)和阴性预测值(NPV)。

该模型的描述性性能被报告为使用 SHAP(SHapley Additive exPlanations)算法的变量排名。在根据 PEEP 降低预测成功脱机时,最佳模型的 AUROC 为 0.84 (95% CI 0.83–0.85),AUPRC 为 0.69 (95% CI 0.67–0.70)。

该模型的召回率为 0.85 (95% CI 0.84–0.86),F1 分数为 0.86 (95% CI 0.85–0.87),PPV 为 0.87 (95% CI 0.86–0.88),NPV 为 0.64 (95% CI 0.86–0.88)。 0.63–0.66)。

SHAP 算法认为重要的大多数变量都与临床直觉相对应,例如 MV 持续时间、氧饱和度 (SaO2)、PEEP 和格拉斯哥昏迷评分 (GCS) 组成部分。

这项研究证明了机器学习在预测基于持续 PEEP 降低的 MV 成功脱机方面的潜在应用。该模型的高 PPV 和中等 NPV 表明它可能是帮助临床医生做出有关呼吸机管理决策的有用工具。

作者摘要

重症监护室患者脱离机械通气 (MV) 对于患者的治疗结果和医疗费用至关重要。这项回顾性研究探讨了机器学习在预测 MV 成功脱机中的应用,重点关注 MV 的关键组成部分呼气末正压 (PEEP),作为成功脱机的潜在预测因素。通过分析来自 eICU-CRD 和 MIMIC-IV 的 12,153 名患者的数据,我们使用极限梯度提升 (XGBoost) 和逻辑回归 (LR) 开发了模型,以减少 PEEP 为目标。我们的最佳模型显示 AUROC 为 0.84,AUPRC 为 0.69,在预测断奶成功方面具有实用性,并通过召回率、F1 分数、PPV 和 NPV 等指标进行了验证。 SHAP 算法确定的重要变量,例如与临床直觉一致的 MV 持续时间和氧饱和度。这些发现凸显了机器学习在增强 ICU 呼吸机管理方面的潜力,有助于改善患者护理和资源利用效率。

 

图 1.研究流程图。

该图描述了将排除标准逐步应用于整个数据集(最顶部的框),直至左侧面板上的 eICU 协作研究数据库 (eICU-CRD) 和强化医学信息集市的最终研究选择(最底部的框)右侧面板上的护理 (MIMIC-IV)。患者人数等于应用第一个标准后的入院人数。

图 2.使用 PEEP 值定义问题。

说明单个患者在 ICU 期间 PEEP 水平进展的问题陈述。在这方面,该事件是PEEP水平降低的时间。任何 PEEP 水平下降后又增加到至少与之前相同的水平都表示脱机失败(红色三角形)。在 ICU 停留结束之前,PEEP 水平下降且没有进一步增加至之前的水平,则表示成功脱机(绿色三角形)。因此,在该图中有一次断奶失败和两次成功断奶尝试

图 3.实验设置。

我们在 eICU-CRD (A) 和 MIMIC-IV (B) 数据集 (DS) 上单独和组合 (C) 开发了 11 个模型,有或没有递归特征消除 (RFE)。

表 1.患者特征。

为所有纳入的患者提供基本的社会人口统计和遭遇参数,并按 eICU-CRD 和 MIMIC-IV 的训练和测试数据集进行划分。

图 4.

XGBoost 在 eICU-CRD (A,B)、MIMIC-IV (C,D) 和组合数据集 (E,F) 上的 AUROC(左图)和校准曲线(右图)。实验:A1) 基于使用 eICU-CRD 的患者进行训练和测试集分割,A1') RFE 应用于 A1,A2) 与 A1 类似,基于完整医院进行训练和测试集分割,B1) 与使用 MIMIC-IV 的 A1 类似,B1') RFE 应用于 B1,C1) 对两个数据集的组合进行训练和测试,C2) 对两个数据集的组合进行训练并在 eICU-CRD 上进行测试 (C2),对两个数据集的组合进行训练并在 eICU-CRD 上进行测试MIMIC-IV (C3) 和 (C1'-C3') RFE 应用于 C1、C2、C3。

 

表 2.使用 eICU-CRD 数据集的模型性能。

在定义的实验中比较 XGBoost 和 LR(基线)的选定指标,见图3。表现最佳的指标值以粗体表示。

表 3.使用 MIMIC-IV 数据集的模型性能。

在定义的实验中比较 XGBoost 和 LR(基线)的选定指标,见图3。表现最佳的指标值以粗体表示

表 4.使用组合数据集的模型性能。

在定义的实验中比较 XGBoost 和 LR(基线)的选定指标,见图3。表现最佳的指标值以粗体表示。

图 5.XGBoost 实验的变量排序。

XGBoost 中基于 SHAP 结果的较高变量重要性由较大尺寸和较深颜色的矩形表示。 (ALP,碱性磷酸酶;ALT,丙氨酸转氨酶;BUN,血尿素氮;DBP,舒张压;FiO 2,​​吸入氧分数;GCS,格拉斯哥昏迷量表;MAP,平均动脉压;MBP,平均血压;MV 、机械通气;PaCO 2、呼气末正压;PTT、部分凝血活酶时间;SBP、收缩压;

一、介绍


全球范围内,重症监护病房 (ICU) 中50-70 % 的患者在 ICU 住院期间需要机械通气 (MV) [ 1-5 ]。非侵入性 MV 使用面罩或头盔覆盖患者的嘴和/或鼻子来支持患者的呼吸努力 [ 6 ],而侵入性 MV 则涉及气管插管。然后呼吸机通过正压将氧气输送到患者的肺部,建立人工呼吸机制。为了防止肺泡在此过程中塌陷,在每个呼吸周期结束时保持少量压力,称为呼气末正压 (PEEP)。对于临床医生来说,确定开始将患者从 MV 中解放出来的过程(称为脱机)的正确时间至关重要 [ 7 ]。患者未能戒除 MV 会导致 ICU 住院时间延长和不良事件(包括死亡率增加)相关 [ 8 , 9 ]。 2005 年,在布达佩斯召开的国际共识会议为复杂的断奶过程提供了基本指南 [ 10 ]。正如 Thille 等人所总结的,许多研究已经检验了在决定适当断奶时机时应考虑的关键临床参数。等[ 8 ]。几项研究已经使用这些参数来检验机器学习(ML)基于不同人群和不同角度预测断奶的能力。
大多数相关工作将脱机定义为以拔管形式完全脱离侵入性MV的二元分类<a href="https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000478#pdig.0000478.ref016">[ 11-16 ] 。少数作者描述了将脱机处理为多阶段过程的算法,例如,首先预测从控制模式到支持模式的变化,然后预测拔管[ ef="https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000478#pdig.0000478.ref019">17-19 ]。后一种方法更好地捕捉了整个脱机过程的复杂性,这应该被解释为一个连续的过程而不是单个事件,强调了预测 MV 脱机的复杂性。


在这种背景下,Otaguro 等人。 [ 11 ] 使用单一电子健康记录数据对呼吸衰竭后接受 MV 插管的患者进行了一项研究。他们采用随机森林、极限梯度提升 (XGBoost) 和光梯度提升机 (LightGBM) 算法来预测未来 72 小时内无需插管的拔管情况。同样,林等人。 [ 12 ] 专注于预测入院呼吸护理中心的需要延长 MV 的患者的成功脱机。他们将成功断奶定义为连续五天脱离MV。 Liao 等人描述的完整断奶算法。等人。 [ 14 ]使用XGBoost,他们开发了一个人工智能预测仪表板来预测MV的成功脱机。同样,贾等人。等人。 [ 15 ] 使用基于重症监护医疗信息集市 III (MIMIC-III) 数据的卷积神经网络预测完全脱机。刘等。等人。 [ 16 ]将脱机定义为48小时不通气或死亡,他们使用MIMIC-IV数据作为训练集和测试集以及eICU协作研究数据库(eICU-CRD)数据进行外部验证以预测完全脱机。赵等人的最新研究之一。 [ 20 ]使用 MIMIC-IV 的数据来训练和评估 CatBoost 算法,以预测拔管失败,因为需要在计划拔管后 48 小时内重新插管或死亡。斯特罗德霍夫等人。 [ 17 ] 使用来自 MIMIC-III 和 eICU-CRD 的数据以及随机森林算法、个体神经网络和多任务网络来预测相关通气参数,而不是二元结果(PaO 2、动脉二氧化碳分压和呼吸系统合规性)未来 30 分钟。在多阶段断奶方面所做的工作很少。在这种背景下,刘等人。等人。 [ 18 ]描述了一种基于XGBoost等算法的两阶段撤机预测算法;首先,他们成功预测呼吸机从控制模式切换到支持模式,并从这个阶段开始他们预测成功脱机。同样,Cheng 等人。 al[ 19 ]通过模式降档定义脱机,例如,从完全支持模式到部分支持模式。


PEEP 值是 MV 的参数之一,它同时捕获撤机过程的几个方面:首先,随着增加 PEEP 水平用于增强氧合 [ 21 ],PEEP 水平可以作为肺部氧合的替代参数特性(PEEP 增加表明病情恶化,PEEP 减少表明氧合作用)。其次,由于较高的 PEEP 水平用于预防肺复张和肺不张(“塌陷”的肺区域),从而减少通气-灌注不匹配[ 22 ],因此可以怀疑耐受较低 PEEP 水平的患者具有足够的通气。最后但也很重要的是,PEEP 可以增加肺顺应性并减少呼吸功 [ 23 ]。在这种情况下,PEEP 水平的降低可以被视为呼吸力学的恢复。值得注意的是,2005年的国际共识会议将PEEP水平规定为8 cmH2O或更低作为“最低呼吸机依赖性”的指标,使其成为脱离机械通气的必要标准之一。
对于日常临床实践来说,这意味着成功脱机基本上总是先于 PEEP 降低,但尚未用于预测成功脱机。在这项研究中,我们的目的是使用监督机器学习模型,通过针对 PEEP 水平的变化来预测机械通气的成功脱机,将持续 PEEP 降低而不从头增加定义为脱机成功。

二、方法


患者数据选择


本研究利用 MIMIC-IV v1.0 [ 24 ] 和 eICU-CRD [ 25 ] 数据集的数据。两者都是位于美国的重症监护数据库,分别有 76,540 例和 200,859 例 ICU 入院病例。在这项研究中,我们纳入了来自不同 ICU 的首次 ICU 入院患者和入院患者,年龄在 18 岁至 89 岁之间,并且在 MV 上至少记录了两次 PEEP 测量值。此外,我们纳入了观察次数超过 10 次和少于 200 次的患者,以确保仔细平衡并捕获足够数量的数据以进行深入分析,同时减轻与过少或过多观察次数相关的偏差。图 1说明了应用于两个数据集的排除标准。

 

结果定义

这项回顾性研究旨在回答以下问题:作为撤机过程中的关键步骤,现在是否是降低 PEEP 水平的合适时机?我们已将这个问题转化为二元分类问题,使用上次脱机尝试或入住 ICU 与当前脱机尝试(事件)之间的数据来预测当前 PEEP 水平降低是否会成功,如图2所示。如果 PEEP 在 ICU 停留结束前下降且随后没有增加到之前的水平,则认为脱机成功;如果出院前下降后 PEEP 增加到至少与之前相同的水平,则认为脱机失败。

 

变量选择和特征定义


我们编译了临床医生确定的与预测成功脱机相关的 51 个临床变量,这些变量也已在文献中使用,并且在两个数据集中都可用(参见S1 附录)。大多数变量都缺少数据集之间具有很大可比性的数据。例外情况是 MIMIC 中缺失率较高的一些变量(白蛋白 +23%、SaO 2 +23%)和 eICU-CRD(碱基过剩 +26%、GCS +31%、INR +23%、乳酸 +35%、MAP) +26%,PIP +46%,PT +26%,PTT +38%)。缺失值是向前估算的。使用多变量插补器填充剩余的缺失值。对于每个变量,计算平均值、最小值、最大值和标准差 (SD),构成 ML 模型中使用的 188 个数字特征。观察窗口是从入住 ICU 到当前事件或从最后一个事件到当前事件的时间段。

模型开发


我们利用逻辑回归的两种机器学习模型作为基线,并利用 XGBoost 和 SHAP 来提供对 XGBoost 输出的解释。逻辑回归(LR)使用一组给定的自变量来预测分类因变量的输出[ 26 ]。 XGBoost 使用集成方法,按顺序创建不同的模型。因此,创建了一个新模型来减少先前模型的误差[ 27 ]。 LR 因其简单性和广泛应用的可解释性而被选中,XGBoost 因其准确性、性能以及对复杂、高维和不平衡数据的处理而被选中<a href="https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000478#pdig.0000478.ref030">[ 28-30 ] 。
SHAP [ 31 ]基于在合作参与者之间分配合作博弈中总收益的经典方法,用于近似机器学习模型中每个变量对预测的贡献。该方法通过检查在存在或不存在其他剩余变量的所有可能组合下删除给定变量的影响来近似给定预测的 Shapley 值。 SHAP 是一种独特的方法,因为它具有多种理想的特性,包括局部准确性、全局一致性和清晰的概率解释,使其成为可解释的机器学习和公平性评估的有效工具。

模型训练与评估


在所有实验中,使用随机训练-测试分割方法,将患者及其所有数据随机选择到训练或测试数据集中。唯一的例外是使用 eICU-CRD 数据的单个实验,我们对完整的医院数据进行了相同的训练测试分割分数。该模型使用 MIMIC-IV、eICU-CRD 以及两者组合各数据库的 80% 数据进行训练。每个事件和相关输入均与患者分开纳入训练中。该模型根据剩余 20% 的数据进行评估。超参数是根据反复试验手动调整的。每个模型均使用原始的 188 个特征集进行训练。我们还使用递归特征消除(RFE)算法来减少特征数量,同时保留与机器学习模型最相关的特征。实验概述如图3所示。例如,对于 A1,使用 LR 和 XGBoost 在 eICU-CRD 数据上训练模型,使用所有临床变量对 80/20% 的患者进行训练测试分割,并在 eICU-CRD 数据上进行评估。 A1' 中唯一的区别是我们额外应用了 RFE。结果中还用数据描述了详细信息。此外,我们还进行了与年龄、脓毒症和以 Horowitz 指数为代表的肺功能相关的亚组分析,如S1 附录中所述。预测性能使用 95% CI 进行报告,基于评估指标,例如受试者工作特征下面积 (AUROC)、精确召回曲线下面积 (AUPRC)、F1 分数、召回率、阳性预测值 (PPV)、和阴性预测值(NPV)。使用接收者操作特征 (ROC) 曲线将结果质量可视化。为了可视化模型的可靠性,提供了显示结果频率与预测概率的校准曲线。所有实验的真/假阳性/阴性指标均在S1 附录中报告。 95% CI 通过正态近似计算。我们使用 CI 和性能指标比较了不同机器学习模型的性能。

 

道德声明

在研究中使用 eICU-CRD [ 25 ] 无需经过机构审查委员会 (IRB) 的批准。这种豁免是由于研究设计的回顾性、缺乏直接的患者干预以及安全的数据处理程序。与数据集相关的重新识别风险已由位于马萨诸塞州剑桥的独立隐私专家 Privacert 进行了评估并认证为符合安全港标准(健康保险流通和责任法案认证编号:1031219-2)。另一方面,MIMIC-IV v1.0[ 24 ]中的数据已经进行了去标识化,其研究用途已获得麻省理工学院两个机构审查委员会的批准(编号:0403000206)和贝斯以色列女执事医疗中心 (2001-P-001699/14)。

 

结果

我们在研究中纳入了 12,153 名患者,其中 6,010 名来自 eICU-CRD 的患者(38.4% 女性,年龄 62.3 岁)和 6,143 名来自 MIMIC-IV 的患者(42.2% 女性,年龄 62.9 岁)。表 1列出了两个数据集的患者特征。S1 附录中描述了所有使用的功能。

在 eICU-CRD 中,我们确定了 20,162 个事件(35% 阳性),每个患者平均 (SD) 3.35 (7.03) 个事件(对于至少有一个阳性和阴性事件的患者,分别为 1.45 (0.95) 和 5.43 (9.87) 个事件)。在 MIMIC-IV 中,我们确定了 10,700 个事件(70% 阳性),每个患者平均 (SD) 1.75 (1.16) 个事件(至少有一个阳性和阴性事件的患者分别为 1.41 (0.75) 和 1.62 (0.96) 个事件)。

eICU-CRD (A)


我们使用 eICU-CRD 数据集进行了三个实验:A1)使用全套 188 个特征对随机选择的患者进行训练,无论患者是否入院; A1') RFE应用于(A1)以将特征减少到22个相关特征(20个临床变量); A2) 使用与 (A1) 中相同的 188 个特征,使用 80% 的 eICU-CRD 医院对完整医院数据进行训练(对其余 20% 的医院进行测试),以检查不同医院治疗效果的潜在差异。
相应的性能指标如表 2所示。在大多数 CI 为 95% 的实验中,XGBoost 表现出优于 LR 方法(基线)的统计显着优势,因此,我们将图 4A / 4B中的视觉呈现限制为 XGBoost。实验 (A1) 和 (A1') 中的性能指标具有可比性。在实验(A2)中,与(A1)和(A1')相比,特别是F1-score、PPV和AURUC更高,如图4A中的曲线所反映,表明完全从各个医院选择的患者组的预测能力提高了:反对从不同医院随机抽取。图4B显示了XGBoost的校准曲线;在这种情况下,实验(A1)、(A1')和(A2)得到了很好的校准。在亚组分析中,年龄和脓毒症模型的结果较差,但 Horowitz 指数≥162 的模型与主要分析相比,AUC 略好。

 

模拟-IV (B)

我们使用 MIMIC-IV 数据集进行了两个实验:(B1)和(B1')与(A1)和(A1')中的类似。 RFE 得出 132 个相关特征(49 个临床变量)。

性能指标如表 3所示。图 4C / 4D说明了 XGBoost,它被证明在大多数指标上都优于 LR 方法(基线)。考虑到 AUROC,两个实验的表现相当,表明使用减少的特征集,AUROC 并没有改善。然而,实验 (B1') 显示召回率、F1 分数和 NPV 的数值较低,表明使用 RFE 算法的预测效果较差。指标的变化也反映在图 4D的校准曲线中。当比较 MIMIC-IV 和 eICU-CRD 的模型性能时,可以发现前者的 AUROC 相对较低,为 0.18。在亚组分析中,年龄、脓毒症和 Horowitz 指数≥162 的模型与我们的主要分析相比结果更差。

eICU-CRD 和 MIMIC-IV 组合 (C)

为了更好地评估我们的模型针对数据方差的稳健性,我们使用两个数据集的组合进行了六次实验。我们在两个数据集的组合上训练所有模型,但在两个数据集的组合 (C1)、eICU-CRD (C2) 和 MIMIC-IV (C3) 上进行验证。对于每个实验,我们都使用 RFE 算法进行实验 (C1'-C3')。单一数据集实验 (A1') 和 (B1') 的 18 个共同特征(14 个临床变量)被认为可用于组合数据集的分析。

相应的性能指标如表 4所示。如表 4所示,在大多数实验中,XGBoost 在统计上显示出优于 LR 方法的显着优势,CI 为 95%(基线)。使用 XGBoost 的 AUROC 和相关校准曲线如图4E / 4F所示。与 MIMIC-IV (C3) 上的测试相比,在组合数据集 (C1) 和 eICU-CRD (C2) 上进行验证时,AUROC 相似,如图4E中的曲线所反映。考虑到使用 RFE 算法(C1')和(C2')减少的特征集,AUROC 与完整的特征集(C1)和(C2)相比稍差。 eICU-CRD (C2) 和 (C2') 的评估优于 MIMIC-IV (C3) 和 (C3') 的评估。单独对 eICU-CRD (A1) 和 (A1') 进行训练和测试的效果略优于对 eICU-CRD (C2) 和 (C2') 上组合数据和测试进行的训练。相比之下,与仅在 MIMIC-IV (B1) 上进行训练相比,在组合数据集上进行训练会导致 MIMIC-IV (C3) 中的测试稍好一些。图4F为XGBoost的校准曲线;在这种情况下,除了(C3')外,所有实验都经过良好校准,包括 MIMIC 验证。在亚组分析中,年龄和脓毒症模型的结果较差,只有Horowitz指数≥162的亚组的AUC与主要分析相比略好。

 

可变排名

机器学习模型在医学中的应用需要任何建议都有合理的理由[ 32 ]。由此,我们在临床变量层面对XGBoost模型进行了可视化解释。图 5说明了最重要的变量以及重要性的颜色和块大小编码,并且基于 SHAP 结果。S1 附录中列出了相关的个体蜂群数据。虽然实验之间的变量重要性有所不同(参见S1 附录),但血清白蛋白、血清乳酸、SaO 2和 MV 持续时间在所有实验的前 20 个排名变量中都很常见。在 11 项实验中,有 9 项实验的心率、GCS 评分(眼睛、运动和语言成分)均位于前 20 个变量之列。在 11 项实验中,有 8 项实验中 PEEP 和 PIP 属于前 20 个变量之列。 SHAP 值排名表明排名最高的变量集高度依赖于实验中使用的数据。

 

三、讨论


主要发现


本研究描述并验证了一种预测危重患者成功脱离 MV 的方法。预测模型基于 PEEP 水平,以前从未以这种形式使用过。在整个临床变量集上训练的模型在 eICU-CRD 数据集上表现良好,但在 MIMIC-IV 数据集上表现较差,通过使用 MIMIC-IV 和 eICU-CRD 联合数据集进行训练可以在一定程度上改进该模型。预测性能指标是一致的,在一个数据集上的实验中只有轻微的波动。相对于单个数据集实验,AUROC 和 AUPRC 指标显示组合数据集实验(C1—C3 和 C1'—C3')中的波动要高得多。我们按医院划分 eICU-CRD 数据集,这构成了数据集中医院外部验证的一种形式。我们进一步深入了解该方法以及使用可解释的机器学习方法说明的关键变量。
实验观察
XGBoost 在每个数据集的实验中始终表现出稳定的 AUROC、AUPRC 和 F1 分数指标,这种趋势在表 2表 3中非常明显。关键性能指标的稳定性,AUROC 结合了特异性和敏感性,AUPRC 强调模型在处理不平衡数据集时的性能,F1 分数协调精确度和召回率(完美,值为 1.0),强调了模型的稳健性不同实验环境中的 XGBoost。然而,PPV 和 NPV 值描绘了不同的情况,在不同的实验设置中显示出相当大的变异性,而没有呈现出明显的增加或减少趋势。 PPV 描述了在具有真正阳性结果的人群中预测阳性的比例,并且在 eICU-CRD 数据的实验中比描述在具有真正阴性结果的人群中预测阴性的比例的 NPV 略高。 MIMIC数据中,PPV普遍低于NPV,与eICU-CRD相比差异较大。这种可变性强调了这些指标对实验设计细节的敏感性,这些指标预测具有真正阳性结果的人群中的阳性测试,反之亦然,并强调在评估和解释时需要仔细考虑。
需要特别注意表 4中使用组合数据集的结果,其中在所有指标中观察到更有意义的变化,类似于单个数据集的实验,特别是在实验 C3 和 C3' 中。这些波动表明不同数据上下文和实验条件对 XGBoost 模型性能指标的潜在影响。


功能排名


SHAP 确定的对结果有影响的特征与撤机或拔管失败的已知风险因素一致。 Li 等人的系统回顾和荟萃分析。 [ 33 ] 确定低血清白蛋白、低 SaO 2、休克(高乳酸可以作为替代参数)和机械通气时间长度是重新插管的危险因素。这些因素是我们所有实验中排名前 20 的变量之一。
除了低血清白蛋白之外,Wu 等人。 [ 34 ] 在一项回顾性观察研究中,将较低的 GCS 分数确定为脱机失败的预测因素,该参数在 11 项实验中的 9 项中也排名前 20。托里尼等人。 [ 35 ]能够确认机械通气的持续时间、心率和较低的GCS评分是拔管不成功和脱机失败的危险因素,而Na等人。 [ 36 ]发现长时间断奶的患者吸气峰压(PIP)较高。我们的实验还发现 PIP 是脱机失败的一个可能的风险因素。
总体而言,SHAP 确定的所有特征都与多项研究中已与脱机失败相关的特征一致,从而增加了我们结果的可信度。
相关工作和设计比较
在本研究中,我们的算法被定义为二元分类机器学习问题。它利用 PEEP 水平的变化来检测 MV 的脱机情况。在此过程中,我们预测断奶是一个多阶段的过程。我们研究的模型设计和患者队列与之前的研究不同。在这方面,尽管预测断奶的总体目标可以在一定程度上进行对比,但完整的比较是不可行的。
大多数相关工作依赖于单个当地医院的数据来定义其患者群体11,12,14,18,19 ]。所得模型可用作提供本地 ICU 撤机仪表板的基础。一些作者使用公开可用的数据集,即主要是 eICU-CRD 和 MIMIC-IV 的组合[ 16 ]、当地医院和公共数据集的组合[ 20 ]或仅其中之一[ 15 ]。
在相关工作中,建模中包含的特征数量差异很大,最终模型中使用的特征选择并不总是明确的。考虑到我们使用 RFE 算法的最佳性能模型,我们纳入了 20 个临床变量。
直接完全断奶的预测似乎实现了相对最佳的性能。 Liao 等人描述的完整断奶算法。等人。 [ 14 ] 包含 26 个特征(比我们的最佳模型+6),并导致 AUROC 稍好一些,为 0.86。同样,刘等人。等人。 [ 16 ]使用 MIMIC-IV 和 eICU-CRD 数据中的 35 个特征(+15 个特征)来预测完全脱机。在 MIMIC-IV 验证中实现了 0.80 的更好 AUROC,在 eICU-CRD 验证中实现了 0.86 的更好 AUROC。贾等。等人。 [ 15 ]使用 MIMIC-III 数据中的 25 个特征(+5 个特征)来预测完全断奶,实现 0.94 的高 AUROC。大田郎等。等人。 [ 11 ]报告了 57 个特征(+37 个特征)的 AUROC 为 0.95。林等人。等人。 [ 12 ]报告使用 300 个特征(+280 个特征)的 AUROC 为 0.90。
预测多阶段过程中断奶的初始缓解,或刘等人命名的“尝试断奶”。等人。 [ 18 ],通常比直接预测完全断奶获得更低的分数。在多阶段断奶方面所做的工作很少。刘等。等人。 [ 18 ]使用了 25 个特征(+5 个特征),并在第一阶段实现了略高的 AUROC 0.85,在第二阶段他们实现了 0.90 的 AUROC。同样,Cheng 等人。 al [ 19 ] 使用 32 个特征(+12 个特征)实现了 0.76 的较低 AUROC。与我们的工作相比,这两项研究报告的结果相当或稍差。


数据差异的影响


在我们的研究中,我们没有将输入数据限制在事件发生之前的固定时间范围内。因此,每个事件都是使用来自不同观察窗口的数据来预测的。由于结果仅根据 PEEP 参数和聚合统计测量值来定义,因此事件数量取决于每个数据集中的测量频率。因此,重要的是,我们的 eICU-CRD 队列中的 PEEP 测量平均每 38 (155) 分钟记录一次 (SD),中位数每 19 分钟记录一次。相比之下,在 MIMIC-IV 中,平均每 57 (323) 分钟报告一次测量结果,中位数每 36 分钟报告一次。我们的队列数据的另一个差异是积极结果率,分别为 35% 和 70%。
数据中的这种差异可能解释了本研究中包含的各种数据集之间的性能差异。此外,两个数据集的临床变量具有不同的频率,具体取决于每个变量的测量和记录方法及其患者服务区域的严重程度。这可能会导致不同的预测和描述性性能结果,尤其是使用我们的模型方法的统计推导时。
局限性
所提出的模型是使用美国的数据集进行训练和评估的,因此适合美国的情况。我们并未将这项研究局限于患有特定疾病的患者,因此可以预测多种疾病的断奶情况。更具体的患者群体可能会产生具有更好性能指标的模型。

四、结论


脱离 MV(由呼气末正压下降定义)可以使用脱离前不同长度的观察窗口的一些特征来预测。因此,本研究描述了一种在多阶段重症监护决策过程中预测脱机的新策略。特别是,可能需要更深入地研究不同医院的建模背景和测量方法的多样性。

 

S1 附录。有关方法和结果的更多详细信息,包括亚组分析。

 

References

  1. 1.Du B, An Y, Kang Y, Yu X, Zhao M, Ma X, et al. Characteristics of critically ill patients in ICUs in mainland China. Crit Care Med. 2013 Jan;41(1):84–92. pmid:23222268
  2. 2.Metnitz PGH, Metnitz B, Moreno RP, Bauer P, Del Sorbo L, Hoermann C, et al. Epidemiology of mechanical ventilation: analysis of the SAPS 3 database. Intensive Care Med. 2009 May;35(5):816–25. pmid:19288079
  3. 3.Fowler RA, Sabur N, Li P, Juurlink DN, Pinto R, Hladunewich MA, et al. Sex-and age-based differences in the delivery and outcomes of critical care. CMAJ. 2007 Dec 4;177(12):1513–9. pmid:18003954
  4. 4.Sacanella E, Pérez-Castejón JM, Nicolás JM, Masanés F, Navarro M, Castro P, et al. Mortality in healthy elderly patients after ICU admission. Intensive Care Med. 2009 Mar;35(3):550–5. pmid:18982308
  5. 5.Farfel JM, Franca SA, Sitta M do C, Filho WJ, Carvalho CRR. Age, invasive ventilatory support and outcomes in elderly patients admitted to intensive care units. Age Ageing. 2009 Sep;38(5):515–20. pmid:19605608
  6. 6.Popat B, Jones AT. Invasive and non-invasive mechanical ventilation. Medicine (Abingdon). 2012 Jun;40(6):298–304. pmid:32288571
  7. 7.Thille AW. Simple, difficult, or prolonged weaning: the most important factor is the success or failure of the first weaning trial. Respir Care. 2011 May;56(5):716–7. pmid:21669108
  8. 8.Thille AW, Richard J-CM, Brochard L. The decision to extubate in the intensive care unit. Am J Respir Crit Care Med. 2013 Jun 15;187(12):1294–302. pmid:23641924
  9. 9.Chelluri L, Im KA, Belle SH, Schulz R, Rotondi AJ, Donahoe MP, et al. Long-term mortality and quality of life after prolonged mechanical ventilation. Crit Care Med. 2004 Jan;32(1):61–9. pmid:14707560
  10. 10.Boles JM, Bion J, Connors A, Herridge M, Marsh B, Melot C, et al. Weaning from mechanical ventilation. Eur Respir J. 2007 May 1;29(5):1033–56. pmid:17470624
  11. 11.Otaguro T, Tanaka H, Igarashi Y, Tagami T, Masuno T, Yokobori S, et al. Machine learning for prediction of successful extubation of mechanical ventilated patients in an intensive care unit: A retrospective observational study. J Nippon Med Sch. 2021 Nov 17;88(5):408–17. pmid:33692291
  12. 12.Lin M-Y, Li C-C, Lin P-H, Wang J-L, Chan M-C, Wu C-L, et al. Explainable machine learning to predict successful weaning among patients requiring prolonged mechanical ventilation: A retrospective cohort study in central taiwan. Front Med (Lausanne). 2021 Apr 23;8:663739. pmid:33968967
  13. 13.Ossai CI, Wickramasinghe N. Intelligent decision support with machine learning for efficient management of mechanical ventilation in the intensive care unit—A critical overview. Int J Med Inform. 2021 Jun;150:104469. pmid:33906020
  14. 14.Liao K-M, Ko S-C, Liu C-F, Cheng K-C, Chen C-M, Sung M-I, et al. Development of an Interactive AI System for the Optimal Timing Prediction of Successful Weaning from Mechanical Ventilation for Patients in Respiratory Care Centers. Diagnostics (Basel). 2022 Apr 13;12(4). pmid:35454023
  15. 15.Jia Y, Kaul C, Lawton T, Murray-Smith R, Habli I. Prediction of weaning from mechanical ventilation using Convolutional Neural Networks. Artif Intell Med. 2021 Jul;117:102087. pmid:34127233
  16. 16.Liu W, Tao G, Zhang Y, Xiao W, Zhang J, Liu Y, et al. A Simple Weaning Model Based on Interpretable Machine Learning Algorithm for Patients With Sepsis: A Research of MIMIC-IV and eICU Databases. Front Med (Lausanne). 2021;8:814566. pmid:35118099
  17. 17.Strodthoff C, Frerichs I, Weiler N, Bergh B. Predicting and simulating effects of PEEP changes with machine learning. medRxiv. 2021;
  18. 18.Liu C-F, Hung C-M, Ko S-C, Cheng K-C, Chao C-M, Sung M-I, et al. An artificial intelligence system to predict the optimal timing for mechanical ventilation weaning for intensive care unit patients: A two-stage prediction approach. Front Med (Lausanne). 2022 Nov 18;9:935366. pmid:36465940
  19. 19.Cheng K-H, Tan M-C, Chang Y-J, Lin C-W, Lin Y-H, Chang T-M, et al. The feasibility of a machine learning approach in predicting successful ventilator mode shifting for adult patients in the medical intensive care unit. Medicina (Kaunas). 2022 Mar 1;58(3). pmid:35334536
  20. 20.Zhao Q-Y, Wang H, Luo J-C, Luo M-H, Liu L-P, Yu S-J, et al. Development and Validation of a Machine-Learning Model for Prediction of Extubation Failure in Intensive Care Units. Front Med (Lausanne). 2021 May 17;8:676343. pmid:34079812
  21. 21.Acosta P, Santisbon E, Varon J. “The use of positive end-expiratory pressure in mechanical ventilation”. Crit Care Clin. 2007 Apr;23(2):251–61, x. pmid:17368169
  22. 22.Rossi A, Santos C, Roca J, Torres A, Félez MA, Rodriguez-Roisin R. Effects of PEEP on VA/Q mismatching in ventilated patients with chronic airflow obstruction. Am J Respir Crit Care Med. 1994 May;149(5):1077–84. pmid:8173744
  23. 23.Duncan AW, Oh TE, Hillman DR. PEEP and CPAP. Anaesth Intensive Care. 1986 Aug;14(3):236–50. pmid:3530040
  24. 24.Johnson A, Bulgarelli L, Pollard T, Horng S, Celi LA, Mark R. Mimic-iv. version 04) PhysioNet https://doi.org/1013026/a3wn-hq05 2020;
  25. 25.Pollard TJ, Johnson AEW, Raffa JD, Celi LA, Mark RG, Badawi O. The eICU Collaborative Research Database, a freely available multi-center database for critical care research. Sci Data. 2018 Sep 11;5:180178. pmid:30204154
  26. 26.Wright RE. Logistic regression. 1995;
  27. 27.Chen T, Guestrin C. XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining—KDD ‘16. New York, New York, USA: ACM Press; 2016. p. 785–94.
  28. 28.Yang B, Zhu Y, Lu X, Shen C. A novel composite indicator of predicting mortality risk for heart failure patients with diabetes admitted to intensive care unit based on machine learning. Front Endocrinol (Lausanne). 2022 Jun 29;13:917838. pmid:35846312
  29. 29.Bentéjac C, Csörgő A, Martínez-Muñoz G. A comparative analysis of gradient boosting algorithms. Artif Intell Rev. 2020 Aug 24;
  30. 30.Demir S, Sahin EK. An investigation of feature selection methods for soil liquefaction prediction based on tree-based ensemble algorithms using AdaBoost, gradient boosting, and XGBoost. Neural Comput & Applic. 2023 Feb;35(4):3173–90.
  31. 31.Lundberg SM, Lee S-I. A unified approach to interpreting model predictions. Advances in neural information processing systems. 2017;30.
  32. 32.Neumuth T, Franke S. Clear oxygen-level forecasts during anaesthesia. Nat Biomed Eng. 2018 Oct;2(10):715–6. pmid:31015648
  33. 33.Li W, Zhang Y, Wang Z, Jia D, Zhang C, Ma X, et al. The risk factors of reintubation in intensive care unit patients on mechanical ventilation: A systematic review and meta-analysis. Intensive Crit Care Nurs. 2023 Feb;74:103340. pmid:36369190
  34. 34.Wu Y-K, Kao K-C, Hsu K-H, Hsieh M-J, Tsai Y-H. Predictors of successful weaning from prolonged mechanical ventilation in Taiwan. Respir Med. 2009 Aug;103(8):1189–95. pmid:19359156
  35. 35.Torrini F, Gendreau S, Morel J, Carteaux G, Thille AW, Antonelli M, et al. Prediction of extubation outcome in critically ill patients: a systematic review and meta-analysis. Crit Care. 2021 Nov 15;25(1):391. pmid:34782003
  36. 36.Na SJ, Ko R-E, Nam J, Ko MG, Jeon K. Factors associated with prolonged weaning from mechanical ventilation in medical patients. Ther Adv Respir Dis. 2022;16:17534666221117004. pmid:35943272