mimic数据库中有非常多的指标是需要根据时间计算出来，跟时间有关的指标都需要通过官方的时间函数进行计算得出

MIMIC数据库常用的几个时间计算函数如下

一、DATETIME_DIFF函数

1.1 实例：获取某个患者在ICU待了多少个小时

如果要以天为单位，datepart参数换成'DAY'

结果保留两位小数

结果保留整数

1.2 实例：统计同等大小入院组的入院人数（等宽直方图展示）

with base1 as (
SELECT
        mimiciv_derived.datetime_diff (P.dod, ad.admittime,  'YEAR' ) AS age 
FROM
        mimiciv_hosp.admissions ad
        INNER JOIN mimiciv_hosp.patients P ON ad.subject_id = P.subject_id
), base2 as (
            SELECT age, WIDTH_BUCKET ( age,0, 100, 100 ) AS bucket FROM base1

)
SELECT bucket  , count(*), round ( min ( age ), 1), round ( max ( age ), 1 )

from base2

GROUP BY  bucket ORDER BY bucket

这段SQL代码如果在python里面怎么写？

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import psycopg2
schema_name = 'mimic'
连接到MIMIC-IV数据库
conn = psycopg2.connect(dbname='mimiciv', user='postgres', password='mimic',

host='10.234.211.51', port=5432)

query_schema = 'SET search_path to ' + schema_name + ';'
# # 设置查询语句
# # 我们选择从mimiciv_hosp.admissions表中提取hadm_id等于10006的行。
# # 在写sql代码时，最好先执行“set search_path to mimiciv" 随后的所有操作均不需要指明表格的位置；否则，任何操作都应该在表格名前面加前缀mimiciv
query1 = query_schema + 'SELECT subject_id, hadm_id, admittime, dischtime, admission_type FROM  mimiciv_hosp.admissions'

# 运行查询并将结果分配给变量
admissions_pd = pd.read_sql_query(query1,conn)
admissions_pd.head()
print(admissions_pd.head())
query = """

with base1 as (

SELECT

mimiciv_derived.datetime_diff (P.dod, ad.admittime,  'YEAR' ) AS age

FROM

mimiciv_hosp.admissions ad

INNER JOIN mimiciv_hosp.patients P ON ad.subject_id = P.subject_id

), base2 as (
            SELECT age, WIDTH_BUCKET ( age,0, 100, 100 ) AS bucket FROM base1

)
SELECT bucket  , count(*), round ( min ( age ), 1), round ( max ( age ), 1 )

from base2

GROUP BY  bucket ORDER BY bucket;

"""
ce = pd.read_sql_query(query,conn)
OPTION 2: load chartevents from a CSV file
ce = pd.read_csv('data/example_chartevents.csv', index_col='HOURSSINCEADMISSION')
print(ce.head(20))

我们这里还是直接用sql查出来的，只是把navicat展示换成了python打印出来。

我们简化一下SQL，只查数据，分组的事情交给python

关注公众号【科研收录】，回复"分组入院人数sql", 获取SQL代码

回复"直方图"，获取python代码

1.2.1 WIDTH_BUCKET 桶宽度

构造等宽直方图，其中直方图范围被划分为相同大小的区间（桶），并在求值后返回表达式的值所属的桶号。该函数返回一个整数值或 null（如果有任何输入为 null）。

另外，低于低存储桶的值返回0

高于高存储桶的值返回bucket_count +1

返回一个整数值

WIDTH_BUCKET( <expr> , <min_value> , <max_value> , <num_buckets/bins> ) -- expr : 创建直方图的表达式。此表达式的计算结果必须为数值或日期时间值，或者可以隐式转换为数值或日期时间值的值。如果表达式的计算结果为 null，则表达式返回 null。-- min_value 最小组数: 解析为存储桶 1 的下边界的表达式。还必须计算为数值或日期时间值，并且不能计算为 null。-- max_value 最大历史记录: 解析为存储桶bucket_count 的上限的表达式。还必须计算为数字或日期时间值，并且不能计算为 null。-- num_buckets/bins 桶数:  解析为常量的表达式，指示存储桶的数量。该表达式的计算结果始终为正 INTEGER。

WIDTH_BUCKET 将数据集划分为宽度相等的桶。例如，年龄 = 0–20、20–40、40–60、60–80。这称为等宽直方图。
使用 WIDTH_BUCKET 时请注意最小和最大边界值。每个存储桶包含的值等于或大于该存储桶的基值，因此 0-20、20-40 等年龄范围实际上是 0-19.99 和 20-39.999。
WIDTH_BUCKET 接受以下数据类型：（FLOAT 和/或 INTEGER）、（TIMESTAMP 和/或 DATE 和/或 TIMESTAMPTZ）或（INTERVAL 和/或 TIME）。

1.2.2 拓展：等宽直方图

直方图（histogram）是数据库中的一种重要的统计信息，可以描述列中的数据分布情况。

Equi-width Histogram（等宽直方图）是将数据最大、小值之间的区间等分为N份，每个桶中最大、小值之差都为整体数据最大、小值之差/N，既所谓“等宽”。我们以 N=20 为例，在按照该曲线随机生成的数据上可以得到如下结果：

Equi-width Histogram 最大的缺陷是在数据频次较高的桶中统计信息不够清晰，比如在桶 [55, 60] 中，我们只知道它的总频次是40，却不知道是55、56、57、58、59各出现了8次，还是55出现了36次而其他值都只有一次。因此，当桶数量远小于列中 distinct value 数量、单个桶中 distinct value 过多且分布不均时，Equi-width Histogram 很有可能做出错误的估算并影响优化结果。

二、DATETIME_SUB函数

2.1 实例：提取患者入ICU24小时内的实验室指标

注意：入ICU前6个小时跟入ICU后24小时内采集的指标都属于24小时内的指标。

使用DATETIME_SUB函数把入ICU时间减去6个小时
使用DATETIME_ADD函数把入ICU时间加上24个小时

得出了一个时间范围，最后再通过这个时间范围，判断实验室指标的采集时间是不是在这个时间范围内就能提取出入ICU24小时内的指标了

MIMIC数据提取教程 - 官方提供的时间函数（一）

一、DATETIME_DIFF函数

1.1 实例：获取某个患者在ICU待了多少个小时

1.2 实例：统计同等大小入院组的入院人数（等宽直方图展示）

连接到MIMIC-IV数据库

# # 设置查询语句

# # 我们选择从mimiciv_hosp.admissions表中提取hadm_id等于10006的行。

# # 在写sql代码时，最好先执行“set search_path to mimiciv" 随后的所有操作均不需要指明表格的位置；否则，任何操作都应该在表格名前面加前缀mimiciv

query1 = query_schema + 'SELECT subject_id, hadm_id, admittime, dischtime, admission_type FROM mimiciv_hosp.admissions'

# 运行查询并将结果分配给变量

admissions_pd = pd.read_sql_query(query1,conn)

admissions_pd.head()

print(admissions_pd.head())

OPTION 2: load chartevents from a CSV file

ce = pd.read_csv('data/example_chartevents.csv', index_col='HOURSSINCEADMISSION')

1.2.1 WIDTH_BUCKET 桶宽度

1.2.2 拓展：等宽直方图

二、DATETIME_SUB函数

三、DATETIME_ADD

MIMIC数据提取教程 - 官方提供的时间函数（一）

一、DATETIME_DIFF函数

1.1 实例：获取某个患者在ICU待了多少个小时

1.2 实例：统计同等大小入院组的入院人数 （等宽直方图展示）

连接到MIMIC-IV数据库

# # 设置查询语句

# # 我们选择从mimiciv_hosp.admissions表中提取hadm_id等于10006的行。

# # 在写sql代码时，最好先执行“set search_path to mimiciv" 随后的所有操作均不需要指明表格的位置；否则，任何操作都应该在表格名前面加前缀mimiciv

query1 = query_schema + 'SELECT subject_id, hadm_id, admittime, dischtime, admission_type FROM mimiciv_hosp.admissions'

# 运行查询并将结果分配给变量

admissions_pd = pd.read_sql_query(query1,conn)

admissions_pd.head()

print(admissions_pd.head())

OPTION 2: load chartevents from a CSV file

ce = pd.read_csv('data/example_chartevents.csv', index_col='HOURSSINCEADMISSION')

1.2.1 WIDTH_BUCKET 桶宽度

1.2.2 拓展：等宽直方图

二、DATETIME_SUB函数

三、DATETIME_ADD

1.2 实例：统计同等大小入院组的入院人数（等宽直方图展示）