泊松分布(Poisson Distribution)——理论介绍
关键词:泊松分布; Poisson分布; 等离散
和二项分布差异:
泊松分布和二项式分布是存在关联的,泊松分布可以看做是二项分布的极限情况, 二项式分布表示进行N次伯努利实验成功的次数,而泊松分布表示单位时间或者空间内事件发生的次数, 二者很相似,泊松分布就是二项式分布中N趋近于无穷时的情况。 本章我们先讨论如何从二项式分布推导出泊松分布,然后再讨论GLM家族中泊松模型的特性。
泊松分布看似简单,只有一个参数λ,其实还是有点难以理解的。
最好以二项分布为切入点,来理解泊松分布。The Conne...
VitalDB 概述
网站地址: https://vitaldb.net/dataset/
介绍
这是由术中生物信号和临床信息组成的 6,388 名手术患者的综合数据集。数据集中包含的生物信号数据是高质量数据,例如 500 Hz 波形信号和间隔 1-7 秒的数值。还提供了 60 多项与手术相关的临床信息,以帮助解释信号。
该数据集免费提供,旨在帮助那些想要使用手术患者监测信号研究和开发新医疗 AI 算法的研究人员。我们期待这个世界上最大的生物信号数据集的发布将极大地促进医疗 AI 研究的发展。
如果您在研究中使用...
R语言教程 -- 数据结构(数据框,因子,列表)
四、数据框(数据表)
R语言中做统计分析的样本数据,都是按数据框类型操作的。
数据框的每一列代表一个变量属性的所有取值,每一行代表一条样本数据。
1. 创建数据框
通过函数data.frame()把多个向量组合起来创建,并设置列名称。其基本格式为:
data.frame(col1,col2,col3,...)
其中,列向量col1, col2, col3, …可以为任意类型。
注:矩阵也可以通过函数data.frame()转化为数据库。
2. 数据框索引
列标或列名称索引:
data_iris[,1...
R语言教程 -- 数据结构(向量、矩阵、多维数组)
一、向量(一维数据)
向量是R语言中最基本的数据类型,是以一维数组管理数据的一种对象类型,可以是数值型、字符型、逻辑值型、复数型。
注意:同一向量不能混杂多种不同类型的数据。
1. 创建向量
通过函数c()实现组合功能,例如
> x1<-c(2,3,5,7,10)
> x1
[1] 2 3 5 7 10
> x2<-c("a","b","c")
> x2
[1] "a" "b" "c"
2. 向量索引
(1) 下标索引(注意:R中下标是从1开始的),例如
x1[1]——返回x1的第1个元素
x1[-1]...
R语言教程 -- 基本数据类型与日期时间变量
一、基本数据类型
1. R语言的基本数据类型
包括:数值型、逻辑型、字符型、缺省值、浮点型、复数型、整数型等。
表1 基本数据类型的判别与转换
类型
判别函数
转换函数
numeric
is.numeric()
as.numeric()
logical
is.logical()
as.logical()
character
is.character()
as.character()
NA
is.na()
as.na()
...
R语言教程 - R语言的安装与使用
R是统计分析软件,在数据分析、数据挖掘领域有优势;与SAS比最大的好处就是免费,其次是有各种现成的程序包可用,再次是具有极好的制图功能(数据可视化)。
一、下载安装
到R语言官网或镜像站:
https://www.r-project.org/
https://mirrors.tuna.tsinghua.edu.cn/CRAN/
下载最新版R-4.3.1安装即可,安装时可选择32位或64位版本。
建议再接着安装相应版本的R语言集成开发环境Rstudio,地址:
https://www.rstudio.co...
R语言教程 -- 差异箱线图
一、数据准备
第一列是ID,第二列是Type,第三列是SEMA3D。
ID列包含了患者的标识符,每个患者都有一个唯一的ID。
Type列表示患者的类型,在这个例子中,所有患者都被标记为Normal。
SEMA3D列是一个数值,可能代表某种测量或指标,在这个例子中,它似乎是与患者相关的某个基因或生物标记的测量值。
每一行代表一个不同的患者,ID、Type和SEMA3D分别对应于每个患者。例如,TCGA-HU-A4GY-11A患者是正常的,其SEMA3D值为1.078964861。
这个数据集可...
R语言教程 -- 排序箱线图
一、数据准备
二、代码实现
三、绘制排序箱线图
R语言教程 -- 分类柱状图
一、 数据准备
输入文件需要有3列信息
ONTOLOGY: GO分类,BP/CC/MF
Term: GO名称
Count: 富集在每个Term上基因数目
二、代码实现
三、 结果
R语言教程 -- ROC曲线
一、数据准备
二、代码实现
三、结果
开放数据库 和 论文代码复现
社会科学开放数据库
编号
简称
全称
官网
1
NHANES
美国国家健康和营养调查
https://www.cdc.gov/nchs/nhanes
2
CFPS
中国家庭追踪调查
https://www.isss.pku.edu.cn/cfps/en/index.htm
3
CHARLS
中国健康与养老追踪调查
https://charls.charlsdata.com/
4
CHFS
中国家庭金融调...
R语言教程 -- ggplot2 调整绘图区域大小
熟悉 R 绘图的朋友肯定知道,在普通绘图中,图片的大小可以直接在 png() 和 pdf() 中指定,而绘图区大小则可以用 par() 中的 mar 或 mai 来指定。
但是在 ggplot2 中,图片大小依然可以在 png 和 pdf 中设定,但是边界大小, par 函数似乎就不奏效了。至今天探索,才发现原来这个参数隐藏在 theme 中,其名为 plot.margin 。
1. 原图 ¶
2. 第一次调整边界参数 ¶
3. 第二次调整边界参数 ¶
比...
R语言教程 -- ggplots绘制显著性柱状图
1. 数据预览
2. 代码实现(绘制显著性柱状图)
3. 结果
R语言教程 -- 绘制柱状图
1. 数据预览
2. 代码实现(绘制柱状图)
3. 结果
R语言教程 -- 分组操作group_by()、group_keys()、ungroup()
group_by()是最重要的分组动词,需要一个数据框和一个或多个变量进行分组:
详情: https://cloud.r-project.org/web/packages/dplyr/vignettes/grouping.html
我们首先加载 dplyr:
library(dplyr)
添加分组 group_by()
最重要的分组动词是group_by():它需要一个数据框和一个或多个变量进行分组:
by_species <- starwars %>% group_by(species)
by_se...
R语言教程 -- dplyr包中的distinct()函数
dplyr::distinct对数据框去重,该方法默认保留重复记录的第一条记录
dplyr包中distinct()函数与base包中的unique()函数比较类似,不同的是unique()是一个泛型函数,可以针对向量、矩阵、数组、数据框甚至列表这五种数据类型,求取唯一值。而distinct()函数则是专门为数据框设计的,这也与tidyverse系列包的宗旨一致。
之前用distinct()函数的时候,总容易出现问题,归根结底是没有弄明白distinct()各参数的含义,囫囵吞枣的看了看文档,就开始写了。今天...
R语言教程 -- dplyr 数据操作 数据过滤 (filter)
在R的使用过程中我们几乎都绕不开Hadley Wickham 开发的几个包,前面说过的ggplot2、reshape2以及即将要讲的dplyr
因为这几个包可以非常轻易的使我们从复杂的数据操作中逃离,操作过程简洁,最重要的是数据结果也异常简洁。
首先我们来了解下第一个函数filter()
filter(.data, ...)
参数很简单,只有data,即要操作的数据对象,其他都是数据操作条件。
看一些简单的例子:
可以进行多条件筛选,条件可以用逗号隔开
多条件筛选,...
R语言教程 -- fread读取文件
在数据科学和统计分析中,数据的读取是非常重要的一个步骤。R语言以其强大的数据处理能力,提供了多种方式读取不同格式的数据文件。本篇文章将重点介绍如何使用R语言中的 fread 函数读取数据文件,并通过代码示例帮助你更好地理解这个过程。
什么是fread?
fread 是R语言中 data.table 包提供的一个函数,是 read.table 的一个快速替代品。 fread 函数可以高效地读取文本文件,包括CSV、TSV等格式的数据文件。它处理大型数据集的能力,使得数据导入过程更加快速和高效。
特点
速度...
慢性阻塞性肺病 Chronic obstructive pulmonary disease (COPD)
慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)是以吸入有毒物质后促发气道炎症反应继而引起气流受限的一类疾病,促发COPD的有毒吸入物中以香烟烟雾为最常见。 在非吸烟者中,alpha1-抗胰蛋白酶缺乏及各种职业性暴露较为少见。COPD患者主要临床表现为逐年加重的咳嗽咳痰和呼吸困难症状;常见体征为呼吸音减低、呼气相时间延长和哮鸣音。病情严重患者可并发体重下降、气胸、频发的急性心力衰竭,右心衰竭和/或急性或慢性呼吸衰竭。这类疾病主要根据病史、体检、胸片、肺...