一、MIMIC IV数据库简介
MIMIC数据库就是一个可为临床研究者提供临床数据的利器。
该数据库于2003年在美国国立卫生研究院的资助下,由美国麻省理工学院计算生理学实验室、美国哈佛医学院贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center,BIDMC)和飞利浦医疗公司共同建立。
研究者可根据一定的纳排标准筛选感兴趣患者的临床信息,利用这些信息可进行后续的数据分析然后撰写文章,通过数据收集与分析可作为发表sci论文的重要依据。另外,MIMIC是一个公开数据库,所有患者的信息都经过脱敏处理,发文不需要临床伦理审查。
以下各类疾病都有涉及:
二、数据库样本量
MIMIC 数据库目前已经产生了MIMIC Ⅱ、Ⅲ、Ⅳ三个版本
(1) MIMIC-IV 包含 2008-2019 年的数据,数据来自 Metavision 的床边监视器。
(2) MIMIC-III 包含 2001-2012 年的数据,数据来自 Metavision 和 CareVue 床边监视器,包含 2001-2012 年间麻省理工贝斯以色列迪康医学中心重症监护室病人真实医疗数据,共有年龄 >=16 岁调查对象 53423 人,以及 2001-2008 年间 7870 个新生儿的临床医疗数据。
数据信息包括人口统计学特征、病人生命体征、化验结果、用药情况、医学图像(超声、核磁、CT 等)、病人的医疗过程、床边生命体征的测量,实验室测试结果、各种操作、药物、影像报告和死亡指标等。
(3) MIMIC-II 包含 2001-2008 年的数据, 数据来自 CareVue 床边监视器。MIMIC-II 不再公开使用,但仍然可以从 MIMIC-III 获得数据。
MIMIC数据库包含了BIDMC所有内外科ICU患者的数据,数据团队为保护患者隐私,对患者信息进行去标识化处理,向全世界的研究人员免费开放。
MIMIC Ⅲ数据库收集了BIDMC 2001年6月至2012年10月ICU收治的53423例成年患者数据和2001年至2008年收治的7870例新生儿重症患者数据。
MIMIC Ⅳ数据库在MIMIC Ⅲ的基础上做了一些改进,包括数据更新和部分表格重构,收集了 2008至2019年BIDMC收治的超过19万名患者、45万次住院记录的临床数据。数据库记录了患者的人口统计学信息、实验室检查、用药情况、生命体征、手术操作、疾病诊断、药物管理、随访生存状态等详细信息。
MIMIC Ⅳ数据库主要有三类数据:
- 第一类是从EHR中提取的临床数据,包括患者的人口统计学、疾病诊断、实验室检测、药物治疗、生命体征等。
- 第二类是ICU床旁监护设备采集的波形数据、生命体征、液体管理和事件记录,主要来自于IMDSoft MetaVision系统。
- 第三类是死亡随访数据,通过社会保险系统得到患者院外死亡的日期,作为MIMIC 数据库的组成部分,这部分数据对研究患者的预后很重要。
BIDMC医院常规的临床数据存储在microsoft SQL中,通过VPN转移到MIT服务器的PostgreSQL,补充数据如ICD、患者死亡信息等外部导入到PostgreSQL
- 队列:2008-2019,18岁以上
- 床旁信息来自于MetaVision,医院EHR会通过HL7推信息到MetaVision
- 外部数据主要说明DRGs和ICD是如何处理以及死亡信息如何处理
- DRGs和ICD由于数据库跨度时间长以及不同版本,在数据库中把这些都导入了
- 死亡信息通过与马萨诸塞州生命记录和统计登记处进行匹配,而非社保档案
三、 基本字段表述
患者入院信息, 以每次入院为单位记录, 每条记录有一个单独的hadm_id, hospital_expire_flag只当次住院是否院内死亡, 部分院内死亡患者没有deathtime, 可能是数据库本身问题
Name | datatype | Description |
---|---|---|
subject_id | INTEGER | 患者id |
hadm_id | INTEGER | 住院id |
admittime | TIMESTAMP(0) | 入院时间 |
dischtime | TIMESTAMP(0) | 出院时间 |
deathtime | TIMESTAMP(0) | 死亡时间 |
admission_type | VARCHAR(40) | 按入院紧迫性分为9种 |
admission_location | VARCHAR(60) | 入院来源 |
discharge_location | VARCHAR(60) | 出院去向 |
insurance | VARCHAR(255) | 保险 |
language | VARCHAR(10) | 语言 |
marital_status | VARCHAR(80) | 婚姻 |
ethnicity | VARCHAR(80 | 种族 |
edregtime | TIMESTAMP(0) | 进急诊时间 |
edouttime | TIMESTAMP(0) | 出急诊时间 |
hospital_expire_flag | SMALLINT | 是否在住院期间内死亡, 1 是 0 不是 |
病人定义:
- subject_id
每个患者有唯一的subject_id - hadm_id
患者的每一次入院会有一个唯一的hadm_id - transfer_id
患者每一次更换病房会有一个唯一的transfer_id - stay_id
在相同类型病房内进行转移,则会更新一个transfer_id,但会有相同的stay_id,例如用ICU中的一个病房转移到另一个病房,则stay_id不变,transfer_id更新。
所有id的分配都是随机的,与时间先后无关。
date and time
后缀为date的,分辨率最低为天;后缀为timed的字段,分辨率最低为分钟。
- charttime and storetime:分别是测量的记录时间与储存时间。通常以charttime为准
d and icd
命名为d_开头,为编码表。d_icd开头,为icd编码表。icd结尾的表,为使用icd编码的记录表。
四、MIMIC-IV数据表说明
Tables
分为五个模块,Hosp、ICU、ED、CXR、Note
Hosp
首先介绍模块里主要键值以及表之间连接关系,与MIMIC-III一致
患者基本信息:patients、admissions和transfers表
- 患者时间信息,anchor_year、anchor_age、anchor_year_group这几个重要项
- anchor_year锚定年份,由于时间都是去隐私化的平移过的,这里可以看作平移之后的参考年份
- anchor_year_group是真实年份的区间
- 患者死亡信息最多到患者出院1年为止
管理信息:services、poe、poe_detail表
- services 患者住院期间所受到的医疗服务
- poe 医嘱录入系统:治疗和操作
计费信息:diagnoses_icd、procedures_icd、drgcodes、hcpcsevents
检查结果:microbiologyevents、labevents
药物信息:prescriptions、pharmacy、emar、emar_detail
- 处方、药房信息;
- 2016年部署electronic Medicine Administration Record,eMAR;
- 看起来关系比较复杂使用得结合实例
Hosp模块涵盖的信息包括实验室测量,微生物学,药物管理,和收费诊断等
- d_icd_diagnoses
包含国际疾病分类(ICD)第9版和第10版的诊断代码。icd_code一定要读取为字符串,因为开头为0是有意义的,若读取为数值会有重复,如01622和1622代表不同疾病。
- diagnoses_icd
患者诊断信息表。seq_num代表诊断的优先级,序号越靠前越重要,而低优先级的排序有时并不准确。
- drgcodes
也是与诊断相关的表,使用DiagnosisRelatedGroup(DRG)code编码 与diagnose表中的主要诊断相对应。
- d_icd_procedures
- procedures_icd
患者住院期间的手术信息,包括在ICU期间的信息。
- d_labitems
实验室检查定义表
- labevents
病人实验室检查的记录
- prescriptions
处方数据,药物数据
- pharmacy
药房数据表,以pharmacy_id字段与prescriptions表相关联,相当于对prescriptions表中各处方信息的补充。
此外,还有微生物培养、收费、订单等表格
ICU
包含从ICU内使用的临床信息系统收集的信息。记录在案的数据包括静脉给药、呼吸机设置和其他图表项目等。
每个患者每次入院可能有多次icu,每次icu对应一个stay_id
- d_items
包含ICU内发生的所有项目的编码,通过itemid字段与ICU模块内的其他表格关联。
- ICU stays
入住ICU的时间信息
- chartevents
Chartevents包含了一个病人可用的所有图表数据,有些lab数据与labevents表中的数据重复。
ED
急诊信息,包含急诊诊断,病人体征等信息。通过subject_id和hadm_id与其他模块相连接。急诊的患者如有hadm_id,则说明该患者住院治疗。ed患者不一定住院,住院的患者也不一定从急诊入院。
- diagnosis table
诊断表为患者提供诊断列表。从急诊科出院后确定诊断。 - edstays table
急诊科来访的主要跟踪表。它提供了病人进入急诊科和离开急诊科的时间 - medrecon table
在进入急诊室时,工作人员会询问病人目前正在服用什么药物。这个过程被称为药物协调,医疗检查表存储了护理人员的调查结果 - pyxis table
提供了通过pyxis系统配制药物的信息。 - triage table
包含病人在急诊室第一次分诊时生命体征信息 - vitalsign table
急诊室收治的病人常规的生命体征需要1-4小时。这些生命体征保存在生命体征表中 - vitalsign_hl7 table
急诊收治的病人可通过遥测技术进行监测。每分钟的生命体征都被传送到医院的中央服务器,这些生命体征都被记录在这里。
CXR
X光胸片文件,源数据是dicom格式,但也提供了jpg格式的下载。包含了胸片及影像学报告。值得注意的是,存在有影像的患者没有住院记录的情况。
- cxr-record-list
影像列表 - cxr-study-list
影响报告列表 - mimic-cxr-2.0.0-chexpert
使用CheXpert labeler(基于影像学报告的非人工标注,斯坦福与麻省理工合作)标注了14个标签,标签如下表 - mimic-cxr-2.0.0-split
提供了参考的训练集、验证集、测试集划分
Note
官方已发布
所有文本报告,出院、超声、心电、影像等报告
出院总结:
- 主诉、现病史、既往病史、简要病程、体格检查和出院诊断
放射学报告:
- x射线、CT、MRI、超声
五、官网及数据库下载网址
- 官方介绍见 MIMIC官方网站 : https://mimic.mit.edu/
- MIMIC-IV 数据库下载见 MIMIC-IV发布页: https://physionet.org/content/mimiciv/1.0/
- X光胸片dicom格式数据下载见 MMIC-CXR Database: https://physionet.org/content/mimic-cxr/2.0.0/
- X光胸片JPG格式数据见 MIMIC-CXR-JPG
- 急诊数据见 MIMIC-IV-ED : https://physionet.org/content/mimic-iv-ed/1.0/
六 mimic-iv数据库是怎么建的?
获取、转化、去隐私化
获取#
BIDMC医院常规的临床数据存储在microsoft SQL中,通过VPN转移到MIT服务器的PostgreSQL,补充数据如ICD、患者死亡信息等外部导入到PostgreSQL
- 队列:2008-2019,18岁以上
- 床旁信息来自于MetaVision,医院EHR会通过HL7推信息到MetaVision
- 外部数据主要说明DRGs和ICD是如何处理以及死亡信息如何处理
- DRGs和ICD由于数据库跨度时间长以及不同版本,在数据库中把这些都导入了
- 死亡信息通过与马萨诸塞州生命记录和统计登记处进行匹配,而非社保档案
转化#
转化有两条原则
- 与MIMIC-III保持兼容
- 尽量减少处理过程让公开数据与临床实践数据保持一致
数据被分为三个组:hosp、icu和note
- hosp:admission/discharge/transfer(ADT),实验室检查结果,微生物培养,处方,管理数据
- icu:患者出入量、输液、操作、记录到的观测值等
- note:出院总结和放射学报告,也创建了相对应的自由文本结构化表“实体-属性-值”
去隐私化#
- 遵从The Health Insurance Portability and Accountability Act(HIPAA)条款规定了18项标识符,包括姓名、地址、年龄等需要去掉
- 日期移动,但时间点间距保留
- 结合了两个公开的算法23从自由文本中移除个人健康信息(PHI)
- 两个算法都没捕捉到的,从数据库中移除?这个没写具体怎么做
数据记录结果#
这一部分类似传统论文的结果,详细介绍了hosp、icu、note模块里面的数据情况,对各表进行介绍
七、思考
- MIMIC数据库一步一步发展已经来到了第四版,很好的体现了科学研究的可持续发展。
- 与MIMIC-III论文写法不同,mimic-iv对数据库构建过程写的更加详细,可操作性更高,而mimic-iii由于没有很好的把这个过程结构化抽象分成几步显得构建细节不足,而mimic-iii论文表格比较丰富,对数据库进行了一些粗粒度的介绍,mimic-iv论文没有。个人认为iv这篇论文写的更好一点。
- 伴随着数据类型越来越多、数据库越来越多,数据分析人员也需要掌握更多类型数据预处理方法。面对文本、图像、波形的多模态数据分析或者在不完备数据情况下模型的不确定性成为两个相对应的研究方向。
Reference
- Johnson, A. E. W. et al. MIMIC-IV, a freely accessible electronic health record dataset. Sci Data10, 1 (2023). ↩︎
- Neamatullah, I. et al. Automated de-identification of free-text medical records. BMC medical informatics and decision making 8,1–17 (2008). ↩︎
- Johnson, A. E. W., Bulgarelli, L. & Pollard, T. J. Deidentification of free-text medical records using pre-trained bidirectional transformers. In Proceedings of the ACM Conference on Health, Inference, and Learning, 214–221 (2020). ↩︎
- MIMIC-IV, a freely accessible electronic health record dataset
- Python 系列 – MIMIC-IV Demo 描述性統計