泊松分布(Poisson Distribution)——理论介绍

关键词:泊松分布; Poisson分布; 等离散

 

和二项分布差异:

 

泊松分布和二项式分布是存在关联的,泊松分布可以看做是二项分布的极限情况, 二项式分布表示进行N次伯努利实验成功的次数,而泊松分布表示单位时间或者空间内事件发生的次数, 二者很相似,泊松分布就是二项式分布中N趋近于无穷时的情况。 本章我们先讨论如何从二项式分布推导出泊松分布,然后再讨论GLM家族中泊松模型的特性。

泊松分布看似简单,只有一个参数λ,其实还是有点难以理解的。

最好以二项分布为切入点,来理解泊松分布。The Connection Between the Poisson and Binomial Distributions

当二项分布X ~ B(n, p) 的n无限大、p无限小,且np=λ时,二项分布和泊松分布就是等价的。这就是为什么说泊松分布是用来描述rare event的。

大部分情况下,我们只是拿泊松分布来近似描述我们的数据。

举例1:随机抽取一个家庭,调查家里孩子的数量n,n服从均值为λ的泊松部分。近似而已。

只要随机变量是离散的,且其有一个明显的均值,那就可以用泊松分布来模拟随机变量的分布。

举例2:每次抛n次硬币,随机变量为得到正面的次数为m,显然在多次试验后m有个均值λ,那m就可以用均值为λ的泊松分布来模拟了。

一句话总结:泊松分布是二项分布的一个特例,n无限大且np极限为lambda

 

分布的简写,写出其PMF公式,解释每一项的含义,分布的性质,生物信息学案例,R代码实现。

X ~ Po(λ) - 泊松分布只与lambda有关,记发比较多有π(),也有P()

单位时间/空间内事件发生次数的概率,lambda就是单位时间/空间内的平均次数,k就是次数;

 

分布的性质:期望方差相等;两个泊松分布变量之和仍然为泊松分布;

R代码可视化:

一、基本概念

若某事件的发生是完全随机的,则在单位时间(或空间)事件发生0次、1次、2次、…、X次相应的概率为:

则称该事件的发生服从参数为 𝜆 的Poisson分布,𝜆 是其唯一参数,为Poisson分布的均数(𝜆>0),式中e =2.71828为自然对数的底,是常数,X是事件发生次数,P(X)为事件发生次数为X时的概率。

 

二、适用条件

考察一个变量X是否服从Poisson分布,需要满足以下条件:

条件1:在充分小的观察单位上X的取值最多为1,事件出现两次或两次以上的概率可忽略不计。

条件2:一个事件的发生不影响其它事件的发生,即事件独立发生,不存在传染性、聚集性的事件。

条件3:每一次事件的发生概率是相同的。

三、性质

(1) 总体均数 𝜆 =总体方差σ2

(2) 二项分布在发生概率很小,样本含量(试验次数) n趋向无穷大时,近似于Poisson分布。一般,当n≥20,P≤0.05时,二项分布近似于Poisson分布。

(3)𝜆 ≥20时,Poisson分布近似正态分布。

(4) Poisson分布具有可加性:若随机变量X1X2X3,…,Xn服从Poisson分布,且相互独立,那它们的和也服从Poisson分布。可以利用Poisson分布的可加性,将小单位相加然后用正态近似法处理。

四、累积概率的计算

若随机变量X服从Poisson分布,则单位时间(或空间)内发生的次数最多为m次的概率为:

若随机变量X服从Poisson分布,则单位时间(或空间)内时间发生的次数最少为m次的概率为:

 

五、参数估计与假设检验

(一) 总体均数的区间估计

总体均数的1-α (α一般取0.05或0.01)置信区间估计方法有两种:

第一种为查表法,即当样本计数X≤50时,可以直接查Poisson分布置信区间表,即可得到总体均数的置信区间。

第二种为正态近似法,即当样本计数X>50时,Poisson分布可按照正态分布处理,其计算公式为:

 

当样本含量较大时,在零假设下得到的G统计量近似服从自由度为(d=p-l)的χ2分布。pl分别为前后两个模型包含的自变量个数。

(二) 样本均数与总体均数的比较

对于Poisson分布而言,进行样本均数和总体均数的比较有两种方法:

第一种为直接法:当总体均数 𝜆<20时,可通过直接计算概率的方式对样本均数与已知总体均数间进行有无统计学差异的比较。

第二种为正态近似法,即当总体均数𝜆 ≥20时,可用正态分布进行处理,检验统计量u的计算公式为

(三) 两个样本均数的比较

对服从Poisson分布的样本,其样本计数可看作样本均数。假设两个样本计数分别为X1X2,可利用正态近似法进行比较。

1. 两样本的观察单位数相等,即n1=n2

 

X1X2≥20时,

当5<X1X2<20时,

 

 

2. 两个样本的观察单位数不相等,即n1n2

X1X2≥20时,

当5<X1X2<20时,

六、案例分析

(一) 案例一

根据流行病学研究,一般人群中某病的患病率为2‰,某临床医师对当地30000名抽烟人群进行了调查,其中患该病人数为76人,问抽烟人群患病率是否高于一般人群?

本例中可认为人群中该罕见病的发生人数服从Poisson分布,𝜆 =30000×2‰=60≥20,可按正态近似法计算。

1. 建立假设检验,确定检验水准

H0:π=0.0002

H1:π>0.0002

α=0.05

 

2. 计算统计量

3. 确定P值,作出推断结论

查(u界值表)得单侧0.01<P<0.02,按α=0.05水准,拒绝H0,接受H1,可以认为抽烟人群患病率高于一般人群。

(二) 案例二

某市发生了饮用水污染事件,为了解水质污染情况,当地疾病预防控制中心采集了甲、乙两个点的1 ml末梢水样进行细菌培养,分别培养出菌落总数430个和300个,请问甲、乙两个地点的污染情况是否相同?

本例水样中的菌落总数服从Poisson分布,两个水样均为1ml,观察单位相等。两样本计数分别为X1=430和X2=300,X1X2=730≥20,按照正态分布处理。

1. 建立假设检验,确定检验水准

H0:𝜆1=𝜆2,即甲、乙两点每毫升末梢水样中菌落总数相等

H1:𝜆1≠𝜆2,即甲、乙两点每毫升末梢水样中菌落总数不相等

α=0.05

2. 计算统计量

3. 确定P值,作出推断结论

查(u界值表)得双侧P<0.002,按α=0.05水准,拒绝H0,接受H1,可以认为甲地点每毫升末梢水样中菌落总数高于乙地点每毫升末梢水样中菌落总数。