R语言教程 -- 差异箱线图
一、数据准备
第一列是ID,第二列是Type,第三列是SEMA3D。
ID列包含了患者的标识符,每个患者都有一个唯一的ID。
Type列表示患者的类型,在这个例子中,所有患者都被标记为Normal。
SEMA3D列是一个数值,可能代表某种测量或指标,在这个例子中,它似乎是与患者相关的某个基因或生物标记的测量值。
每一行代表一个不同的患者,ID、Type和SEMA3D分别对应于每个患者。例如,TCGA-HU-A4GY-11A患者是正常的,其SEMA3D值为1.078964861。
这个数据集可...
R语言教程 -- 排序箱线图
一、数据准备
二、代码实现
三、绘制排序箱线图
R语言教程 -- 分类柱状图
一、 数据准备
输入文件需要有3列信息
ONTOLOGY: GO分类,BP/CC/MF
Term: GO名称
Count: 富集在每个Term上基因数目
二、代码实现
三、 结果
R语言教程 -- ROC曲线
一、数据准备
二、代码实现
三、结果
开放数据库 和 论文代码复现
社会科学开放数据库
编号
简称
全称
官网
1
NHANES
美国国家健康和营养调查
https://www.cdc.gov/nchs/nhanes
2
CFPS
中国家庭追踪调查
https://www.isss.pku.edu.cn/cfps/en/index.htm
3
CHARLS
中国健康与养老追踪调查
https://charls.charlsdata.com/
4
CHFS
中国家庭金融调...
R语言教程 -- ggplot2 调整绘图区域大小
熟悉 R 绘图的朋友肯定知道,在普通绘图中,图片的大小可以直接在 png() 和 pdf() 中指定,而绘图区大小则可以用 par() 中的 mar 或 mai 来指定。
但是在 ggplot2 中,图片大小依然可以在 png 和 pdf 中设定,但是边界大小, par 函数似乎就不奏效了。至今天探索,才发现原来这个参数隐藏在 theme 中,其名为 plot.margin 。
1. 原图 ¶
2. 第一次调整边界参数 ¶
3. 第二次调整边界参数 ¶
比...
R语言教程 -- ggplots绘制显著性柱状图
1. 数据预览
2. 代码实现(绘制显著性柱状图)
3. 结果
R语言教程 -- 绘制柱状图
1. 数据预览
2. 代码实现(绘制柱状图)
3. 结果
R语言教程 -- 分组操作group_by()、group_keys()、ungroup()
group_by()是最重要的分组动词,需要一个数据框和一个或多个变量进行分组:
详情: https://cloud.r-project.org/web/packages/dplyr/vignettes/grouping.html
我们首先加载 dplyr:
library(dplyr)
添加分组 group_by()
最重要的分组动词是group_by():它需要一个数据框和一个或多个变量进行分组:
by_species <- starwars %>% group_by(species)
by_se...
R语言教程 -- dplyr包中的distinct()函数
dplyr::distinct对数据框去重,该方法默认保留重复记录的第一条记录
dplyr包中distinct()函数与base包中的unique()函数比较类似,不同的是unique()是一个泛型函数,可以针对向量、矩阵、数组、数据框甚至列表这五种数据类型,求取唯一值。而distinct()函数则是专门为数据框设计的,这也与tidyverse系列包的宗旨一致。
之前用distinct()函数的时候,总容易出现问题,归根结底是没有弄明白distinct()各参数的含义,囫囵吞枣的看了看文档,就开始写了。今天...
R语言教程 -- dplyr 数据操作 数据过滤 (filter)
在R的使用过程中我们几乎都绕不开Hadley Wickham 开发的几个包,前面说过的ggplot2、reshape2以及即将要讲的dplyr
因为这几个包可以非常轻易的使我们从复杂的数据操作中逃离,操作过程简洁,最重要的是数据结果也异常简洁。
首先我们来了解下第一个函数filter()
filter(.data, ...)
参数很简单,只有data,即要操作的数据对象,其他都是数据操作条件。
看一些简单的例子:
可以进行多条件筛选,条件可以用逗号隔开
多条件筛选,...
R语言教程 -- fread读取文件
在数据科学和统计分析中,数据的读取是非常重要的一个步骤。R语言以其强大的数据处理能力,提供了多种方式读取不同格式的数据文件。本篇文章将重点介绍如何使用R语言中的 fread 函数读取数据文件,并通过代码示例帮助你更好地理解这个过程。
什么是fread?
fread 是R语言中 data.table 包提供的一个函数,是 read.table 的一个快速替代品。 fread 函数可以高效地读取文本文件,包括CSV、TSV等格式的数据文件。它处理大型数据集的能力,使得数据导入过程更加快速和高效。
特点
速度...
慢性阻塞性肺病 Chronic obstructive pulmonary disease (COPD)
慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)是以吸入有毒物质后促发气道炎症反应继而引起气流受限的一类疾病,促发COPD的有毒吸入物中以香烟烟雾为最常见。 在非吸烟者中,alpha1-抗胰蛋白酶缺乏及各种职业性暴露较为少见。COPD患者主要临床表现为逐年加重的咳嗽咳痰和呼吸困难症状;常见体征为呼吸音减低、呼气相时间延长和哮鸣音。病情严重患者可并发体重下降、气胸、频发的急性心力衰竭,右心衰竭和/或急性或慢性呼吸衰竭。这类疾病主要根据病史、体检、胸片、肺...
MIMIC-IV数据库更新到3.0版本
一、数据扩充
住ICU人数增加了30%不到,但是对应的特护单(chartevents表格)体积增加了接近50%,应该新增病人的数据颗粒度要比以前更细。
项目
2.2
3
时间跨度
2008-2019
2008-2022
患者人数
299,712
364,627
住院人数
431,231
546,028
住ICU人数
73,181
94,458
此次更新最显著的变化是新增了2020年至2022年期间的住院数据。新增数据的具体情况如下:
患者数:从v2.2的299,7...
文献分享 | MIMIC数据库+机器学习方法+糖尿病酮症酸中毒+风险预测模型=IF 5.2分
原论文下载: https://www.frontiersin.org/journals/endocrinology/articles/10.3389/fendo.2024.1344277/pdf
今天跟大家一起精读一篇2024年发表于FRONTIERS IN ENDOCRINOLOGY (IF:5.2)的研究性文章Feature selection and risk prediction for diabetic patients with ketoacidosis based on MIMI...
文献分享 | MIMIC-IV数据库-心外科手术患者重症监护室住院时间预测模型研究
【摘要】 目的 验证不同变量选择方法对临床预测模型性能的影响。方法 从 MIMIC 数据库中提取了
3 组样本数据集(急性心肌梗塞组、脓毒症组和脑出血组),用 COX 回归的直接进入、逐步向前、逐步向后、
LASSO、岭回归、基于随机森林的变量重要性六种方法,选出的不同方法的最优变量集构建模型,通过 C 指数、受
试者工作特征曲线下面积(AUC 值)和校准曲线,比较组内和组间的结果差异。结果 6 种变量选择方法筛选的
变量及数目各不相同,但不管是组内还是组间,并没有显示出哪种方法有明显提高...
文献分享 | 基于 MIMIC-Ⅳ数据库构建重症心肌病病人预后 预测模型
摘要 目的:分析合并心肌病重症病人院内死亡的影响因素 , 并构 建 列线 图 模 型 。 方法: 回 顾 性 分 析 2008 年— 2019 年 在医 学 信 息 市场重症监护(MIMIC-Ⅳ) 数据库中 2 115 例重症病人的临床资料 ,主要结局为院 内 死亡 。采用多 因素 Logistic 回归模型构建院 内 死 亡的预测模型 。应用 R 语言建立预测院内死亡的列线图模型 ,并计算 C-指数评估该模型对预后的辨别能力 。 采用 1 000 次重采样 的 BootStrap 方法绘制标定曲线...
NASA环境数据批量下载
我们在NASA网站下载数据如温度,降雨,植被指数,通常数据量较多。时间及地区范围,通过改文章,我们获取到所需数据的下载链接,然后使用SHELL来实现 批量下载。(如何获取下载链接)
下面就来介绍如何设置批量下载。本文主要参考 How to Download Data Files from HTTPS Service with wget
(MAC 测试成功。Windows 自行摸索)
1.注册NASA账号
这里给出注册链接地址,可自行百度
2.Wget设置
注册好账号后,需要在终端安装wget,
...
NASA环境数据下载
对于NASA的数据介绍主要包括一下几个数据库:
美国国家航空航天局(NASA)地球科学数据和信息系统(ESDIS)项目是戈达德太空飞行中心飞行项目管理局下属地球科学项目部的一部分。作为ESDIS的关键组成部分,由美国独立设施的分布式网络运营12个互连的分布式活动档案中心(DAAC)
ASDC:The Atmospheric Science Data Center (ASDC)
ASF DAAC:Alaska Satellite Facility Distributed Active Archive C...
NHANES Database 访问链接
生存数据
Demographics(人口统计学)
Dietary(饮食)
Examination(考试)
Laboratory(实验室)
LimitedAccess(有限访问)
Questionnare(问卷)
1999-2000
Demographics
Dietary
Examination
Laboratory
LimitedAccess
Questionnaire
2001-2002
Demographics
Dietary
Examination
Laboratory
Limit...