avatar


3.抽样分布

统计量

什么是统计量

统计量,我们在《1.概括性度量》就有提到过,只不过当时我们没说,这是统计量。

统计量的严格定义如下:
X1,X2,X3,,XnX_1,X_2,X_3,\cdots,X_n是从总体XX中抽取的容量为nn的一个样本,如果由此样本构造一个函数T(X1,X2,X3,,Xn)T(X_1,X_2,X_3,\cdots,X_n),不依赖于任何未知参数,则称函数T(X1,X2,X3,,Xn)T(X_1,X_2,X_3,\cdots,X_n)是一个统计量。

注意,上文的定义,有两个重点:

  1. 由样本构造函数
  2. 不依赖于任何未知参数

通常,T(X1,X2,X3,,Xn)T(X_1,X_2,X_3,\cdots,X_n)也被称为样本统计量。

统计量也是一个随机变量,只有通过抽样,获得样本的一组具体观测值x1,x2,x3,,xnx_1,x_2,x_3,\cdots,x_n时,代入TT,计算得到T(x1,x2,x3,,xn)T(x_1,x_2,x_3,\cdots,x_n)的数值,这时候,才会得到一个具体的统计量值。

例如,X1,X2,X3,,XnX_1,X_2,X_3,\cdots,X_n是从某总体XX中抽取的一个样本,以下两个都是统计量。

Xˉ=1ni=1nXiS2=1n1i=1n(XiXˉ)2\begin{aligned} \bar{X} & = \frac{1}{n} \sum_{i=1}^{n} X_i \\ S^2 & = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \end{aligned}

但是,i=1n[XiE(X)]2\sum_{i=1}^{n}[X_i - E(X)]^2[XiE(X)]/D(X)[X_i - E(X)]/D(X)都不是统计量,因为其中的E(X)E(X)D(X)D(X)都是依赖于总体分布的未知参数。

常用统计量

通常,我们把数学期望及方差等概念用所谓"矩"的概念来描述。当nn充分大时,有定理可以保证经验分布函数Fn(x)F_n(x)很靠近总体分布函数F(X)F(X)。因此,经验分布函数Fn(x)F_n(x)的各阶矩就反映了总体各阶矩的信息。

经验分布函数的各阶矩也被称为样本各阶矩。

常用的样本各阶矩及其函数就是实际应用中的具体统计量,例如:

  1. Xˉ=1ni=1nXi\bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i,样本均值,反映总体XX的数学期望的信息。
  2. S2=1n1i=1n(XiXˉ)2S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2,样本方差,反映总体XX的方差的信息。
  3. V=SXˉV=\frac{S}{\bar{X}},样本变异系数,反映总体变异系数CC的信息,C=D(X)E(X)C=\frac{\sqrt{D(X)}}{E(X)},反映出随机变量在以它的均值为单位时取值的离散程度。
    此统计量消除了均值不同对不同总体的离散程度的影响,常用来刻画均值不同时不同总体的离散程度。
  4. mk=1ni=1nXikm_k = \frac{1}{n}\sum_{i=1}^n X_i^kmkm_k被称为样本的kk阶矩,反映总体的kk阶矩。
    对于m1m_1,有m1=1ni=1nXim_1 = \frac{1}{n}\sum_{i=1}^n X_i,即m1m_1就是样本均值。
  5. vk=1n1i=1n(XiXˉ)kv_k = \frac{1}{n-1}\sum_{i=1}^n(X_i - \bar{X})^kvkv_k被称为样本的kk阶中心矩,反映总体的kk阶中心矩。
    对于v2v_2,有v2=1n1i=1n(XiXˉ)2v_2 = \frac{1}{n-1}\sum_{i=1}^n(X_i - \bar{X})^2,即v2v_2就是样本方差。
  6. 样本偏度,关于样本偏度的计算方法有三种,具体可以参考《1.概括性度量》
    样本偏度反映总体的偏度。
    偏度描述了随机变量密度函数曲线在众数(密度函数在这一点达到最大值)两边的偏斜性。
    正态随机变量XN(μ,σ2)X \sim N(\mu,\sigma^2)的偏度等于00
  7. 样本峰度,关于样本峰度的计算方法有三种,具体可以参考《1.概括性度量》
    样本峰度反映总体的峰度。
    峰度反映了密度函数曲线在众数附近的"峰"的尖峭程度。
    正态随机变量XN(μ,σ2)X \sim N(\mu,\sigma^2)的峰度等于00

三个重要分布

卡方分布

什么是卡方分布

设随机变量X1,X2,X3,,XnX_1,X_2,X_3,\cdots,X_n相互独立,且X(i=1,2,3,,n)X(i=1,2,3,\cdots,n)服从标准正态分布N(0,1)N(0,1),则它们的平方和i=0nXi2\sum_{i=0}^{n}X_i^2服从自由度为nnχ2\chi^2分布(卡方分布)。

自由度,我们可以理解为独立变量的个数。

卡方分布例子

例如,如果我们认为Z1Z_1Z2Z_2Z3Z_3Z4Z_4是4个独立的变量,则我们认为其构成的chi2chi^2分布的自由度为44,即chi2(4)chi^2(4)

关于χ2\chi^2分布的密度函数较为复杂,本文不讨论。
下面给出当n=1n=1n=2n=2n=3n=3n=4n=4n=5n=5时,χ2\chi^2分布的概率密度函数曲线和累积分布函数曲线。

概率密度函数曲线

卡方分布-概率密度函数曲线

累积分布函数曲线

卡方分布-累积分布函数曲线

性质

数学期望

χ2\chi^2分布的数学期望:E(χ2)=nE(\chi^2)=n

方差

χ2\chi^2分布的方差:D(χ2)=2nD(\chi^2)=2n

可加性

χ2\chi^2分布具有可加性,即若χ12χ2(n1)\chi_{1}^{2}\sim\chi^2(n_1)χ22χ2(n2)\chi_{2}^{2}\sim\chi^2(n_2),且独立,则有

χ12+χ22χ2(n1+n2)\chi_{1}^{2} + \chi_{2}^{2} \sim \chi^2(n_1 + n_2)

自由度趋近于无穷时

n+n \rightarrow + \infty时,χ2\chi^2分布的极限分布是正态分布。

推论

X1,X2,X3,,XnX_1,X_2,X_3,\cdots,X_n是来自正态总体N(μ,σ2)N(\mu,\sigma^2)的一个样本,其样本均值和样本方差分别为

Xˉ=1ni=1nXiS2=1n1i=1n(X1Xˉ)2\begin{aligned} \bar{X} & = \frac{1}{n} \sum_{i=1}^{n} X_i \\ S^2 & = \frac{1}{n-1} \sum_{i=1}^{n} (X_1 - \bar{X})^2 \end{aligned}

则有:

  1. Xˉ\bar{X}S2S^2相互独立
  2. XˉN(μ,σ2n)\bar{X} \sim N(\mu,\frac{\sigma^2}{n})
  3. (n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

t分布

什么是t分布

t分布(t distribution),也被称为学生氏分布,是戈塞特(W.S.Gosset)于1908年在一篇以"Student"(学生)为笔名的论文中首次提出的。

设随机变量XN(0,1)X \sim N(0,1)Yχ2(n)Y \sim \chi^2(n),且XXYY独立,则

t=XYnt=\frac{X}{\sqrt{\frac{Y}{n}}}

该分布称为t分布,记为t(n)t(n),其中,nn为自由度。

t分布的密度函数曲线如图。
与标准正态分布N(0,1)N(0,1)的密度函数曲线非常相似,都是单峰偶函数。只是t(n)t(n)的密度函数的两侧尾部要比N(O,1)N(O,1)的两侧尾部粗一些。t(n)t(n)的方差比N(0,1)N(0,1)的方差大一些。

t分布

性质

数学期望

n2n \geq 2时,t分布的数学期望E(t)=0E(t)=0

方差

n3n \geq 3时,t分布的方差D(t)=nn2D(t)=\frac{n}{n-2}

自由度趋近于无穷时

随着自由度nn的增加,t分布的密度函数越来越接近标准正态分布N(0,1)N(0,1)的密度函数。

在实际应用中,一般当n30n \geq 30时,t分布与标准正态分布N(0,1)N(0,1)就非常接近。

推论

X1X_1X2X_2X3X_3\cdotsXnX_n是来自正态分布N(μ,σ2)N(\mu,\sigma^2)的一个样本,Xˉ\bar{X}S2S^2分别是该样本的样本均值与样本方差,
Xˉ=1ni=1nXi\bar{X} = \frac{1}{n} \sum_{i=1}^{n}X_i
S2=1n1i=1n(XiXˉ)2S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2

n(Xˉμ)St(n1)\frac{\sqrt{n}(\bar{X}-\mu)}{S} \sim t(n-1)

称为服从自由度为(n1)(n-1)的t分布。

案例

XXYY是两个相互独立的总体,XN(μ1,σ2)X \sim N(\mu_1,\sigma^2)YN(μ2,σ2)Y \sim N(\mu_2,\sigma^2)X1X_1X2X_2X3X_3\cdotsXnX_n是来自XX的一个样本,Y1Y_1Y2Y_2Y3Y_3\cdotsYmY_m是来自YY的一个样本,记

Xˉ=1ni=1nXiYˉ=1mi=1mYiSx2=1n1i=1n(XiXˉ)2Sy2=1m1i=1m(YiYˉ)2Sxy2=(n1)Sx2+(m1)Sy2n+m2\begin{aligned} \bar{X} & = \frac{1}{n}\sum_{i=1}^{n}X_i \\ \bar{Y} & = \frac{1}{m}\sum_{i=1}^{m}Y_i \\ S_x^2 & = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2 \\ S_y^2 & = \frac{1}{m-1}\sum_{i=1}^{m}(Y_i - \bar{Y})^2 \\ S_{xy}^2 & = \frac{(n-1)S_x^2 + (m-1)S_y^2}{n+m-2} \end{aligned}

(XˉYˉ)(μ1μ2)Sxymnm+nt(n+m2)\frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{S_{xy}}\sqrt{\frac{mn}{m+n}} \sim t(n+m-2)

F分布

什么是F分布

F分布(F distribution)是统计学家费希尔首先提出的。F分布有着广泛的应用,在方差分析、回归方程的显著性检验中有重要的地位。

设随机变量YYZZ相互独立,且YYZZ分别服从自由度为mmnnχ2\chi^2分布,随机变量XX有如下表达式:

X=(Ym)(Zn)=nYmZX = \frac{(\frac{Y}{m})}{(\frac{Z}{n})} = \frac{nY}{mZ}

则称XX服从第一自由度为mm,第二自由度为nn的F分布,记为F(m,n)F(m,n),简记XF(m,n)X \sim F(m,n)。F分布的密度函数的图形如图所示。

F分布-概率密度函数

F分布-概率分布函数

性质

期望和方差

设随机变量XX服从F(m,n)F(m,n)分布,则数学期望和方差分别为:

E(X)=nn2,n>2D(X)=2n2(m+n2)m(n2)(n4),n>4\begin{aligned} E(X) & = \frac{n}{n-2},\quad n > 2 \\ D(X) & = \frac{2n^2(m+n-2)}{m(n-2)(n-4)},\quad n > 4 \end{aligned}

两个自由度的位置

XF(m,n)X \sim F(m,n),则1XF(n,m)\frac{1}{X} \sim F(n,m)

和t分布的关系

F分布与t分布还存在如下关系:如果随机变量Xt(n)X \sim t(n),则X2F(1,n)X^2 \sim F(1,n)

推论

X1X_1X2X_2X3X_3\cdotsXmX_m是来自正态分布N(μ1,σ12)N(\mu_1,\sigma_1^2)的样本,Y1Y_1Y2Y_2Y3Y_3\cdotsYnY_n是来自正态分布N(μ2,σ22)N(\mu_2,\sigma_2^2)的样本,且这两个样本相互独立,记

SX2=1m1i=1m(XiXˉ)2SY2=1n1i=1n(YiYˉ)2\begin{aligned} S_X^2 & = \frac{1}{m-1}\sum_{i=1}^{m}(X_i - \bar{X})^2 \\ S_Y^2 & = \frac{1}{n-1}\sum_{i=1}^{n}(Y_i - \bar{Y})^2 \end{aligned}

其中

Xˉ=1mi=1mXiYˉ=1ni=1nYi\begin{aligned} \bar{X} & = \frac{1}{m}\sum_{i=1}^{m}X_i \\ \bar{Y} & = \frac{1}{n}\sum_{i=1}^{n}Y_i \end{aligned}

则有

F=(SX2σ12)(SY2σ22)F(m1,n1)F = \frac{(\frac{S_X^2}{\sigma_1^2})}{(\frac{S_Y^2}{\sigma_2^2})} \sim F(m-1,n-1)

特别的,若σ12=σ22\sigma_1^2=\sigma_2^2,则

F=SX2SY2F(m1,n1)F = \frac{S_X^2}{S_Y^2} \sim F(m-1,n-1)

中心极限定理

抽样分布

  1. 抽样分布
    抽样分布(sampling distribution),重复抽样条件下,样本统计量的所有可能取值及概率分布。是样本统计自身的分布量的分布。
  2. 精确的抽样分布
    在总体XX的分布类型已知时,若对任一自然数nn,都能导出统计量T=T(X1,X2,X3,,Xn)T=T(X_1,X_2,X_3,\cdots,X_n)的分布的数学表达式,这种分布称为精确的抽样分布。
    精确的抽样分布大多是在正态总体情况下得到的,例如上文我们讨论的χ2\chi^2分布、t分布和F分布,都属于精确的抽样分布。
  3. 浙近分布
    样本容量无限增大时,统计量T(X1,X2,X3,,Xn)T(X_1,X_2,X_3,\cdots,X_n)的极限分布。
    在实际应用中,是nn较大时抽样分布的一种近似。
  4. 随机模拟获得的近似分布
    针对复杂问题,利用计算机的随机模拟技术获得的近似抽样分布。
    (这个思路,我们在强化学习中有用到。关于强化学习,可以参考《强化学习浅谈及其Python实现》)。

总体分布为正态分布

X1X_1X2X_2X3X_3\cdotsXnX_n为从某一总体中抽出的随机样本,即X1X_1X2X_2X3X_3\cdotsXnX_n为互相独立且与总体有相同分布的随机变量。

当总体分布为正态分布N(μ,σ2)N(\mu,\sigma^2)时,可以得到下面的结果:

Xˉ\bar{X}的抽样分布(sampling distribution)仍为正态分布,Xˉ\bar{X}的数学期望为μ\mu,方差为σ2n\frac{\sigma^2}{n},即

XˉN(μ,σ2n)\bar{X} \sim N(\mu,\frac{\sigma^2}{n})

Xˉ\bar{X}的期望值与总体均值相同,而方差则缩小为总体方差的1n\frac{1}{n}。也就是说当用样本均值Xˉ\bar{X}去估计总体均值μ\mu时,平均来说没有偏差(这一点称为无偏性);当nn越来越大时,Xˉ\bar{X}的离散程度越来越小,即用Xˉ\bar{X}估计μ\mu越来越准确。

什么是中心极限定理

上文我们是假定总体的分布是正态分布,那么对于非正态分布呢?

中心极限定理(central limit theorem):设从均值为μ\mu、方差为σ2\sigma^2(有限)的任意一个总体中抽取样本量为nn的样本,当nn充分大时,样本均值Xˉ\bar{X}的抽样分布近似服从均值为μ\mu,方差为σ2n\frac{\sigma^2}{n}的正态分布。

如图描述Xˉ\bar{X}的抽样分布趋于正态分布的过程。

bar-X的抽样分布趋于正态分布的过程

中心极限定理要求nn必须充分大,那么多大才叫充分大呢?
这与总体的分布形状有关。总体偏离正态越远,则要求nn越大。

然而在实际应用中,总体的分布未知。一般,我们常要求n30n \geq 30。需要注意的是,3030只是一个经验值。

案例

案例一

设从一个均值μ=10\mu=10、标准差σ=0.6\sigma=0.6的总体中随机选取容量n=36n=36的样本。假定该总体不是很偏,则有:

根据中心极限定理,不论总体的分布是什么形状,在假定总体分布不是很偏的情形下,当从总体中随机选取n=36n=36的样本时,样本均值Xˉ\bar{X}近似服从均值为1010、方差为σ2n=0.6236=0.01\frac{\sigma^2}{n}=\frac{0.6^2}{36}=0.01的正态分布,即XˉN(10,0.01)\bar{X} \sim N(10,0.01)

案例二

某汽车电瓶生产厂声称其生产的电瓶具有均值为6060个月、标准差为66个月的寿命分布。现假设质检部门决定检验该厂的说法是否准确,为此随机抽取了5050个该厂生产的电瓶进行寿命试验。

  1. 假定厂方说法是正确的,试描述5050个电瓶的平均寿命的抽样分布。
  2. 假定厂方说法是正确的,则5050个样品组成的样本的平均寿命不超过5757个月的概率为多少?

根据中心极限定理可以推出,5050个电瓶的平均寿命近似服从正态分布,其均值为6060,方差为σ2n=62n=3650=0.72\frac{\sigma^2}{n}=\frac{6^2}{n}=\frac{36}{50}=0.72的正态分布。即XˉN(60,0.72)\bar{X} \sim N(60,0.72)

如果厂方说法是正确的,则观察到5050个电瓶的平均寿命不超过57个月的概率为:

P(Xˉ57)=P(Xˉ600.7257600.72)=P(Z57600.72)=P(Z3.529)=1P(Z3.529)=1Φ(3.529)=10.9998=0.0002\begin{aligned} P(\bar{X} \leq 57) & = P(\frac{\bar{X} - 60}{\sqrt{0.72}} \leq \frac{57 - 60}{\sqrt{0.72}}) \\ & = P(Z \leq \frac{57-60}{\sqrt{0.72}}) \\ & = P(Z \leq -3.529) \\ & = 1 - P(Z \leq 3.529) \\ & = 1 - \Phi(3.529) \\ & = 1 - 0.9998 \\ & = 0.0002 \end{aligned}

其他抽样分布

样本比例的抽样分布

例如,我们假定总体中对具有某一产品的喜好比例为pipi,在此条件下去研究从总体中随机抽取nn个个体进行调查时,喜好某一产品的个体数XX的概率。

例如,我们要估计在总体中,喜好某一产品的比例π\pi。我们抽取了nn个样本,即样本数为nn,其中喜好某一产品的数量为XX。所以,我们用样本比p^=Xn\hat{p}=\frac{X}{n},来估计总体的比例π\pi

根据二项分布的原理和渐近分布的理论,我们知道,当nn充分大时,p^\hat{p}的分布近似服从均值为π\pi、方差为π(1π)n\frac{\pi(1-\pi)}{n}的正态分布,即

p^N(π,π(1π)n)\hat{p} \sim N(\pi,\frac{\pi(1-\pi)}{n})

  • 一般认为,当np5np \geq 5,并且n(1p)5n(1-p) \geq 5,认为nn充分大。

两样本均值差的抽样分布

Xˉ1\bar{X}_1是独立抽样自总体X1N(μ1,σ12)X_1 \sim N(\mu_1,\sigma_1^2)的一个样本容量为n1n_1的样本均值,Xˉ2\bar{X}_2是独立抽样自总体X2N(μ2,σ22)X_2 \sim N(\mu_2,\sigma_2^2)的一个样本容量为n2n_2的样本均值,则有

E(Xˉ1Xˉ2)=E(Xˉ1)E(Xˉ2)=μ1μ2D(Xˉ1Xˉ2)=D(Xˉ1)+D(Xˉ2)=σ12n1+σ22n2\begin{aligned} E(\bar{X}_1 - \bar{X}_2) & = E(\bar{X}_1) - E(\bar{X}_2) = \mu_1 - \mu_2 \\ D(\bar{X}_1 - \bar{X}_2) & = D(\bar{X}_1) + D(\bar{X}_2) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} \end{aligned}

如果两个样本均为正态分布,则Xˉ1Xˉ2\bar{X}_1 - \bar{X}_2也为正态分布,其均值和方差就符合上述均值和方差的计算公式,即

Xˉ1Xˉ2N(μ1μ2,σ12n1+σ22n2)\bar{X}_1 - \bar{X}_2 \sim N(\mu_1 - \mu_2,\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2})

假设:甲、乙两所著名高校在某年录取新生时,甲校的平均分为655655分,且服从正态分布,标准差为2020分;乙校的平均分为625625分,也是正态分布,标准差为2525分。现从甲、乙两校各随机抽取88名新生计算其平均分数,出现甲校比乙校的平均分低的可能性有多大?

因为两个总体均为正态分布,所以88名新生的平均成绩Xˉ1\bar{X}_1Xˉ2\bar{X}_2也分别为正态分布,Xˉ1Xˉ2\bar{X}_1 - \bar{X}_2也为正态分布,且

Xˉ1Xˉ2N(μ1μ2,σ12n1+σ22n2)\bar{X}_1 - \bar{X}_2 \sim N(\mu_1 - \mu_2,\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2})

甲校比乙校的平均分低,即Xˉ1Xˉ20\bar{X}_1 - \bar{X}_2 \leq 0,即求P((Xˉ1Xˉ2)0)P((\bar{X}_1 - \bar{X}_2) \leq 0)

两样本比例差的抽样分布

设分别从具有参数为π1\pi_1和参数π2\pi_2的二项总体中抽取包含n1n_1个观测值和n2n_2个观测值的独立样本,则两个样本比例差的抽样分布为

p^1p^2=X1n1X2n2\hat{p}_1 - \hat{p}_2 = \frac{X_1}{n_1} - \frac{X_2}{n_2}

具有以下性质:

  1. E(p^1p^2)=π1π2E(\hat{p}_1 - \hat{p}_2) = \pi_1 - \pi_2
  2. D(p^1p^2)=π1(1π1)n1+π2(1π2)n2D(\hat{p}_1 - \hat{p}_2) = \frac{\pi_1(1-\pi_1)}{n_1} + \frac{\pi_2(1 - \pi_2)}{n_2}
  3. n1n_1n2n_2很大时,(p^1p^2)(\hat{p}_1 - \hat{p}_2)的抽样分布近似为正态分布,其均值与方差为上述计算公式,即:

p1p2N(π1π2,π1(1π1)n1+π2(1π2)n2)p_1 - p_2 \sim N(\pi_1 - \pi_2,\frac{\pi_1(1-\pi_1)}{n_1} + \frac{\pi_2(1 - \pi_2)}{n_2})

样本方差的抽样分布

样本方差的抽样分布,也就是上文讨论的χ2\chi^2分布的推论中的(n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

两样本方差比的抽样分布

两样本方差比的抽样分布,也就是上文讨论的F分布的推论。

Python计算

卡方分布

计算:

  1. 自由度为1515χ2\chi^2值小于等于1515的概率
  2. 自由度为2525χ2\chi^2值大于1515的概率
  3. 自由度为1010χ2\chi^2分布右尾概率为0.050.05时的分位数

示例代码:

1
2
3
4
5
6
7
8
9
10
11
12
from scipy.stats import chi2

# 自由度为15,卡方值小于等于10的概率
p1 = chi2.cdf(10, df=15)
# 自由度为25,卡方值大于15的概率
p2 = 1 - chi2.cdf(15, df=25)
# 自由度为10,卡方分布右尾概率为0.05时的分位数
q = chi2.ppf(0.95, df=10)

print(p1)
print(p2)
print(q)

运行结果:

1
2
3
0.18026008049639844
0.9413825679762463
18.307038053275146

t分布

计算:

  1. 自由度为1010,t值小于2-2的概率
  2. 自由度为1515,t值大于33的概率
  3. 自由度为2525,t分布右尾概率0.0250.025时的t值。

示例代码:

1
2
3
4
5
6
7
8
9
10
11
12
from scipy.stats import t

# 自由度为10,t值小于等于-2的概率
p1 = t.cdf(-2, df=10)
# 自由度为15,t值大于3的概率
p2 = 1 - t.cdf(3, df=15)
# 自由度为25,t分布右尾概率为0.025时的t值
q = t.ppf(0.975, df=25)

print(p1)
print(p2)
print(q)

运行结果:

1
2
3
0.036694017385370196
0.004486368738611635
2.059538552753294

F分布

计算:

  1. 分子自由度为1010,分母自由度为88,F值小于33的概率
  2. 分子自由度为1818,分母自由度为1515,F值大于2.52.5的概率
  3. 分子自由度为2525,分母自由度为2020,F分布累积概率为0.950.95时的F值

示例代码:

1
2
3
4
5
6
7
8
9
10
11
12
from scipy.stats import f

# df_1=10,df_2=8,F值小于等于3的概率
p1 = f.cdf(3, dfn=10, dfd=8)
# df_1=18,df_2=15,F值大于2.5的概率
p2 = 1 - f.cdf(2.5, dfn=18, dfd=15)
# df_1=25,df_2=20,F分布累积概率为0.95时的值
q = f.ppf(0.95, dfn=25, dfd=20)

print(p1)
print(p2)
print(q)

运行结果:

1
2
3
0.9335491372878875
0.03944962943005237
2.073920163193128
文章作者: Kaka Wan Yifan
文章链接: https://kakawanyifan.com/30103
版权声明: 本博客所有文章版权为文章作者所有,未经书面许可,任何机构和个人不得以任何形式转载、摘编或复制。

留言板