R语言教程 -- 差异箱线图
一、数据准备
第一列是ID,第二列是Type,第三列是SEMA3D。
ID列包含了患者的标识符,每个患者都有一个唯一的ID。
Type列表示患者的类型,在这个例子中,所有患者都被标记为Normal。
SEMA3D列是一个数值,可能代表某种测量或指标,在这个例子中,它似乎是与患者相关的某个基因或生物标记的测量值。
每一行代表一个不同的患者,ID、Type和SEMA3D分别对应于每个患者。例如,TCGA-HU-A4GY-11A患者是正常的,其SEMA3D值为1.078964861。
这个数据集可...
R语言教程 -- 排序箱线图
一、数据准备
二、代码实现
三、绘制排序箱线图
R语言教程 -- 分类柱状图
一、 数据准备
输入文件需要有3列信息
ONTOLOGY: GO分类,BP/CC/MF
Term: GO名称
Count: 富集在每个Term上基因数目
二、代码实现
三、 结果
R语言教程 -- ROC曲线
一、数据准备
二、代码实现
三、结果
开放数据库 和 论文代码复现
社会科学开放数据库
编号
简称
全称
官网
1
NHANES
美国国家健康和营养调查
https://www.cdc.gov/nchs/nhanes
2
CFPS
中国家庭追踪调查
https://www.isss.pku.edu.cn/cfps/en/index.htm
3
CHARLS
中国健康与养老追踪调查
https://charls.charlsdata.com/
4
CHFS
中国家庭金融调...
R语言教程 -- ggplot2 调整绘图区域大小
熟悉 R 绘图的朋友肯定知道,在普通绘图中,图片的大小可以直接在 png() 和 pdf() 中指定,而绘图区大小则可以用 par() 中的 mar 或 mai 来指定。
但是在 ggplot2 中,图片大小依然可以在 png 和 pdf 中设定,但是边界大小, par 函数似乎就不奏效了。至今天探索,才发现原来这个参数隐藏在 theme 中,其名为 plot.margin 。
1. 原图 ¶
2. 第一次调整边界参数 ¶
3. 第二次调整边界参数 ¶
比...
R语言教程 -- ggplots绘制显著性柱状图
1. 数据预览
2. 代码实现(绘制显著性柱状图)
3. 结果
R语言教程 -- 绘制柱状图
1. 数据预览
2. 代码实现(绘制柱状图)
3. 结果
R语言教程 -- 分组操作group_by()、group_keys()、ungroup()
group_by()是最重要的分组动词,需要一个数据框和一个或多个变量进行分组:
详情: https://cloud.r-project.org/web/packages/dplyr/vignettes/grouping.html
我们首先加载 dplyr:
library(dplyr)
添加分组 group_by()
最重要的分组动词是group_by():它需要一个数据框和一个或多个变量进行分组:
by_species <- starwars %>% group_by(species)
by_se...
R语言教程 -- dplyr包中的distinct()函数
dplyr::distinct对数据框去重,该方法默认保留重复记录的第一条记录
dplyr包中distinct()函数与base包中的unique()函数比较类似,不同的是unique()是一个泛型函数,可以针对向量、矩阵、数组、数据框甚至列表这五种数据类型,求取唯一值。而distinct()函数则是专门为数据框设计的,这也与tidyverse系列包的宗旨一致。
之前用distinct()函数的时候,总容易出现问题,归根结底是没有弄明白distinct()各参数的含义,囫囵吞枣的看了看文档,就开始写了。今天...
R语言教程 -- dplyr 数据操作 数据过滤 (filter)
在R的使用过程中我们几乎都绕不开Hadley Wickham 开发的几个包,前面说过的ggplot2、reshape2以及即将要讲的dplyr
因为这几个包可以非常轻易的使我们从复杂的数据操作中逃离,操作过程简洁,最重要的是数据结果也异常简洁。
首先我们来了解下第一个函数filter()
filter(.data, ...)
参数很简单,只有data,即要操作的数据对象,其他都是数据操作条件。
看一些简单的例子:
可以进行多条件筛选,条件可以用逗号隔开
多条件筛选,...
R语言教程 -- fread读取文件
在数据科学和统计分析中,数据的读取是非常重要的一个步骤。R语言以其强大的数据处理能力,提供了多种方式读取不同格式的数据文件。本篇文章将重点介绍如何使用R语言中的 fread 函数读取数据文件,并通过代码示例帮助你更好地理解这个过程。
什么是fread?
fread 是R语言中 data.table 包提供的一个函数,是 read.table 的一个快速替代品。 fread 函数可以高效地读取文本文件,包括CSV、TSV等格式的数据文件。它处理大型数据集的能力,使得数据导入过程更加快速和高效。
特点
速度...
慢性阻塞性肺病 Chronic obstructive pulmonary disease (COPD)
慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)是以吸入有毒物质后促发气道炎症反应继而引起气流受限的一类疾病,促发COPD的有毒吸入物中以香烟烟雾为最常见。 在非吸烟者中,alpha1-抗胰蛋白酶缺乏及各种职业性暴露较为少见。COPD患者主要临床表现为逐年加重的咳嗽咳痰和呼吸困难症状;常见体征为呼吸音减低、呼气相时间延长和哮鸣音。病情严重患者可并发体重下降、气胸、频发的急性心力衰竭,右心衰竭和/或急性或慢性呼吸衰竭。这类疾病主要根据病史、体检、胸片、肺...