统计学基础——负二项分布的数字特征
一、引言
负二项分布(又名帕斯卡分布)和两点分布、二项分布、几何分布、超几何分布和泊松分布一样是常见的离散型分布。从定义上可以看成是几何分布的推广,从推导形式上也可以看成二项分布的推广。由于负二项分布的展开式不如二项分布那么常用,故在推导其期望方差等数字特征时,会碰到一些问题,本文展示了二项分布和其他分布的关系,并且给出了负二项分布的数字特征的推导过程,方便小伙伴理解,以减少想入门统计学的伙伴记忆负担。乔舰,范淑芬在文献[1]中具体列出了负二项分布的五种定义形式,以及多种求期望方差的方法。
黎明的清新在她的博客常见分布的数学期望、方差与特征函数推导(一)离散型分布一文中推导了常见的离散分布的数字特征。
二、负二项分布定义的引出与理解
2.1 实际意义
在实际的生活中,负二项分布可以应用到很多场景。一个人在获得r次满分前,没有获得满分的次数。一台机器在坏掉之前,可以使用的天数。可以看出负二项分布有总的次数失败两种定义方式。事实上,这两种定义方式本质等价,本文使用总的次数来定义负二项分布。
2.2 初始定义
这下面我们直接给出负二项分布的定义并解释负的含义。
定义一
X
X
X是服从负二项分布的随机变量,在一系列的独立的伯努利实验中,每次实验成功的概率是p,r是提前设定的成功实验次数。则
X
X
X的概率密度函数是:
P
(
x
=
k
)
=
(
k
−
1
r
−
1
)
p
r
(
1
−
p
)
k
−
r
.
(1)
P(x=k)=\binom{k-1}{r-1}p^{r}(1-p)^{k-r}. \tag{1}
P(x=k)=(r−1k−1)pr(1−p)k−r.(1) 其中
k
k
k从r取到无穷。此时
X
X
X~
N
B
(
r
,
p
)
.
NB(r,p).
NB(r,p).
为了读者方便对比给出
定义二
Y
Y
Y是服从二项分布的随机变量,在一系列的独立的伯努利实验中,每次实验成功的概率是p,n是总的实验次数。则
Y
Y
Y的概率密度函数是:
P
(
y
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
.
P(y=k)=\binom{n}{k}p^{k}(1-p)^{n-k}.
P(y=k)=(kn)pk(1−p)n−k. 其中
k
k
k从0取到n。此时
Y
Y
Y~
B
(
n
,
p
)
.
B(n,p).
B(n,p).
2.3 重新定义“负”二项分布
面对负二项分布的定义直观含义很好理解,但是对于为啥是负,很多初学的小伙伴显然很迷无从理解,下面我们对原始定义重新整理定义。
下面的公式推导来源于维基百科负二项分布词条,由于最近进不去那个网页,这里手动引用说明一下,不再注明链接。下面公式只能凭借印象自推,如有错误私信指正,不胜感激。
P
(
x
=
k
)
=
(
k
−
1
r
−
1
)
p
r
(
1
−
p
)
k
−
r
=
(
k
−
1
)
!
(
r
−
1
)
!
(
k
−
r
)
!
p
r
(
1
−
p
)
k
−
r
=
(
k
−
1
)
(
k
−
2
)
⋯
(
k
−
1
−
(
k
−
1
−
r
)
)
(
k
−
r
)
!
p
r
(
1
−
p
)
k
−
r
=
(
−
1
)
k
−
r
(
−
r
)
(
−
r
+
1
)
⋯
(
−
k
+
1
)
(
k
−
r
)
!
p
r
(
1
−
p
)
k
−
r
=
(
−
1
)
k
−
r
(
−
r
k
−
r
)
p
r
(
1
−
p
)
k
−
r
=
(
−
r
k
−
r
)
p
r
(
−
1
+
p
)
k
−
r
\begin{aligned} P(x=k) &\left.=\binom{k-1}{r-1}p^{r}(1-p)^{k-r} \right. \\ &\left. = \frac{(k-1)!}{(r-1)!(k-r)!}p^{r}(1-p)^{k-r} \right. \\ &\left.=\frac{(k-1)(k-2)\cdots(k-1-(k-1-r))}{(k-r)!}p^{r}(1-p)^{k-r} \right.\\ &\left.=(-1)^{k-r}\frac{(-r)(-r+1)\cdots(-k+1)}{(k-r)!}p^{r}(1-p)^{k-r} \right.\\ &\left.=(-1)^{k-r}\binom{-r}{k-r}p^{r}(1-p)^{k-r} \right. \\ &\left.=\binom{-r}{k-r}p^{r}(-1+p)^{k-r} \right. \\ \end{aligned}
P(x=k)=(r−1k−1)pr(1−p)k−r=(r−1)!(k−r)!(k−1)!pr(1−p)k−r=(k−r)!(k−1)(k−2)⋯(k−1−(k−1−r))pr(1−p)k−r=(−1)k−r(k−r)!(−r)(−r+1)⋯(−k+1)pr(1−p)k−r=(−1)k−r(k−r−r)pr(1−p)k−r=(k−r−r)pr(−1+p)k−r
定义三
Z
Z
Z是服从负二项分布的随机变量,在一系列的独立的伯努利实验中,每次实验成功的概率是p,r是提前设定的成功实验次数。则
X
X
X的概率密度函数是:
P
(
z
=
k
)
=
(
−
r
k
−
r
)
p
r
(
−
1
+
p
)
k
−
r
P(z=k)=\binom{-r}{k-r}p^{r}(-1+p)^{k-r}
P(z=k)=(k−r−r)pr(−1+p)k−r
其中
k
k
k从r取到无穷。此时
Z
Z
Z~
N
B
(
r
,
p
)
.
NB(r,p).
NB(r,p).
推导出上述公式显然和二项分布定义比较相似。我们知道二项分布来源于二项展开式,那么我们可以把二项展开式推广到负整指数上么?想来是可以的。我们继续从二项展开式出发进行推导。
2.3 推导前的知识准备
定义三知识帮助大家了解负二项分布“负”的来源,我们接下来的推导使用定义一中的公式。我们知道公式(1)
作为概率密度函数,满足:
∑
k
=
r
+
∞
P
(
X
=
k
)
=
1
(2)
\sum_{k=r}^{+\infty~} P(X=k)=1 \tag{2}
k=r∑+∞ P(X=k)=1(2)
将公式(1)
带代入公式(2)
变形的得到下面公式。
p
−
r
=
∑
k
=
r
+
∞
(
k
−
1
r
−
1
)
(
1
−
p
)
k
−
r
(3)
p^{-r}=\sum_{k=r}^{+\infty~}\binom{k-1}{r-1}(1-p)^{k-r} \tag{3}
p−r=k=r∑+∞ (r−1k−1)(1−p)k−r(3)
设
q
=
1
−
p
q=1-p
q=1−p,则:
(
1
−
q
)
−
r
=
∑
k
=
r
+
∞
(
k
−
1
r
−
1
)
q
k
−
r
(1-q)^{-r}=\sum_{k=r}^{+\infty~}\binom{k-1}{r-1}q^{k-r}
(1−q)−r=k=r∑+∞ (r−1k−1)qk−r
有了上述推导,我们给出广义的二项展开式的定义。
定理一
−
1
<
x
<
1
-1<x<1
−1<x<1,n是正整数,有如下形式:
(
1
−
x
)
−
n
=
∑
k
=
0
+
∞
(
n
k
)
x
k
(1-x)^{-n}=\sum_{k=0}^{+\infty~}\binom{n}{k}x^{k}
(1−x)−n=k=0∑+∞ (kn)xk
定理一的证明可以用数学归纳法比较简单,为节省篇幅读者自证。
三、数字特征推导
负二项分布的数字特征的求法主要分为两种:
1、拆分为几何分布。
2、定义直接求。
拆分法比较显然,这里不再赘述。下面用定义法去推导。
为了阅读方便这里把定义一随机变量
X
X
X的概率密度函数拿过来。
P
(
X
=
k
)
=
(
k
−
1
r
−
1
)
p
r
(
1
−
p
)
k
−
r
.
P(X=k)=\binom{k-1}{r-1}p^{r}(1-p)^{k-r}.
P(X=k)=(r−1k−1)pr(1−p)k−r.
3.1 期望
E ( X ) = p r ∑ k = r + ∞ k ( k − 1 r − 1 ) ( 1 − p ) k − r = p r ∑ k = r + ∞ ( k − r ) ( k − 1 k − r ) ( 1 − p ) k − r + r ∑ k = r + ∞ P ( X = k ) = p r ∑ t = 0 + ∞ t ( t + r − 1 t ) ( 1 − p ) t + r ,(t=k-r) = p r ∑ t = 0 + ∞ t ( t + r − 1 r − 1 ) ( 1 − p ) t + r ,上一行的等价变形 = p r ∑ t = 1 + ∞ t ( t + r − 1 ) ! ( r − 1 ) ! t ! ( 1 − p ) t + r = r p r ∑ t = 1 + ∞ ( t + r − 1 ) ! r ! ( t − 1 ) ! ( 1 − p ) t + r = r p r ∑ k = 0 + ∞ ( k + r ) ! r ! k ! ( 1 − p ) k + 1 + r ,(k=t-1), 嘿嘿,字母不多来回用了 = r ( 1 − p ) p r p − r − 1 + r ,自行查看公式(3) = r p \begin{aligned} E(X) &\left.=p^{r}\sum_{k=r}^{+\infty~}k\binom{k-1}{r-1}(1-p)^{k-r} \right. \\ &\left.=p^{r}\sum_{k=r}^{+\infty~}(k-r)\binom{k-1}{k-r}(1-p)^{k-r}+r\sum_{k=r}^{+\infty~}P(X=k) \right. \\ &\left.=p^{r}\sum_{t=0}^{+\infty~}t\binom{t+r-1}{t}(1-p)^{t}+r \right.\text {,(t=k-r)} \\ &\left.=p^{r}\sum_{t=0}^{+\infty~}t\binom{t+r-1}{r-1}(1-p)^{t}+r \right.\text {,上一行的等价变形} \\ &\left.=p^{r}\sum_{t=1}^{+\infty~}t\frac{(t+r-1)!}{(r-1)!t!}(1-p)^{t}+r \right. \\ &\left.=rp^{r}\sum_{t=1}^{+\infty~}\frac{(t+r-1)!}{r!(t-1)!}(1-p)^{t}+r \right. \\ &\left.=rp^{r}\sum_{k=0}^{+\infty~}\frac{(k+r)!}{r!k!}(1-p)^{k+1}+r \right. \text {,(k=t-1), 嘿嘿,字母不多来回用了}\\ &\left.=r(1-p)p^{r}p^{-r-1}+r \right. \text {,自行查看公式(3)}\\ &\left.=\frac{r}{p} \right. \end{aligned} E(X)=prk=r∑+∞ k(r−1k−1)(1−p)k−r=prk=r∑+∞ (k−r)(k−rk−1)(1−p)k−r+rk=r∑+∞ P(X=k)=prt=0∑+∞ t(tt+r−1)(1−p)t+r,(t=k-r)=prt=0∑+∞ t(r−1t+r−1)(1−p)t+r,上一行的等价变形=prt=1∑+∞ t(r−1)!t!(t+r−1)!(1−p)t+r=rprt=1∑+∞ r!(t−1)!(t+r−1)!(1−p)t+r=rprk=0∑+∞ r!k!(k+r)!(1−p)k+1+r,(k=t-1), 嘿嘿,字母不多来回用了=r(1−p)prp−r−1+r,自行查看公式(3)=pr
3.2 方差
为了求得方差先求二阶原点距。
E
(
X
2
)
=
p
r
∑
k
=
r
+
∞
k
2
(
k
−
1
r
−
1
)
(
1
−
p
)
k
−
r
=
r
(
r
+
1
)
(
1
−
p
)
2
+
2
p
r
2
+
r
p
(
1
−
p
)
−
r
2
p
2
p
2
,方法和上述期望的求法一致(配方)
=
r
(
1
−
p
)
+
r
2
p
2
\begin{aligned} E(X^{2}) &\left.=p^{r}\sum_{k=r}^{+\infty~}k^{2}\binom{k-1}{r-1}(1-p)^{k-r} \right. \\ &\left.= \frac{r(r+1)(1-p)^{2}+2pr^{2}+rp(1-p)-r^{2}p^{2}}{p^{2}} \right.\text {,方法和上述期望的求法一致(配方)} \\ &\left.= \frac{r(1-p)+r^2}{p^2} \right. \\ \end{aligned}
E(X2)=prk=r∑+∞ k2(r−1k−1)(1−p)k−r=p2r(r+1)(1−p)2+2pr2+rp(1−p)−r2p2,方法和上述期望的求法一致(配方)=p2r(1−p)+r2
D
(
X
)
=
E
(
X
2
)
−
(
E
(
X
)
)
2
=
r
(
1
−
p
)
p
2
\begin{aligned} D(X) &\left.=E(X^2)-(E(X))^2 \right. \\ &\left.= \frac{r(1-p)}{p^2} \right. \\ \end{aligned}
D(X)=E(X2)−(E(X))2=p2r(1−p)
四、R语言中的负二项分布
在R语言中也有相应函数可用于负二项分布,本文介绍四个分别是:
4.1函数表格
函数 | 含义 |
---|---|
dnbinom | 输入次数、规模、概率 返回发生x次失败事件的概率 |
pnbinom | 返回输入参数的累积概率 |
qnbinom | 返回对应的分位点 |
rnbinom | 返回每组发生失败事件的次数 |
下面贴出函数的具体入口参数。详细例子请参照函数例子。
?dnbinom
4.2 函数参数展示
dnbinom
function (x, size, prob, mu, log = FALSE)
{
if (!missing(mu)) {
if (!missing(prob))
stop("'prob' and 'mu' both specified")
.Call(C_dnbinom_mu, x, size, mu, log)
}
else .Call(C_dnbinom, x, size, prob, log)
}
pnbinom
function (q, size, prob, mu, lower.tail = TRUE, log.p = FALSE)
{
if (!missing(mu)) {
if (!missing(prob))
stop("'prob' and 'mu' both specified")
.Call(C_pnbinom_mu, q, size, mu, lower.tail, log.p)
}
else .Call(C_pnbinom, q, size, prob, lower.tail, log.p)
}
qnbinom
function (p, size, prob, mu, lower.tail = TRUE, log.p = FALSE)
{
if (!missing(mu)) {
if (!missing(prob))
stop("'prob' and 'mu' both specified")
.Call(C_qnbinom_mu, p, size, mu, lower.tail, log.p)
}
else .Call(C_qnbinom, p, size, prob, lower.tail, log.p)
}
rnbinom
function (n, size, prob, mu)
{
if (!missing(mu)) {
if (!missing(prob))
stop("'prob' and 'mu' both specified")
.Call(C_rnbinom_mu, n, size, mu)
}
else .Call(C_rnbinom, n, size, prob)
}
参考文献
[1]乔舰,范淑芬.负二项分布随机变量数字特征的求解[J].高等数学研究,2017,20(02):32-34.