统计学基础简略梳理

Khan Academy AP®︎ Statistics 的听课笔记。佛系解释，日后再改。

假设要测量全国 N 人口身高，从中随机抽取 n 人

总体 Population

全国 N 人

样本 Sample

$x_i$

随机抽取的 n 人

$x_1,x_2,...,x_{n}$

总体均值 Population Mean

全国 N 人的平均身高

$\mu=\dfrac{x_1+x_2+x_3+...+x_N}{N}=\dfrac{\sum_{i=1}^{N} x_i}{N}$

样本均值 Sample Mean

被抽取的 n 人的平均身高，n 人身高之和除以 n

$\overline{x}=\dfrac{x_1+x_2+x_3+...+x_n}{n}=\dfrac{\sum_{i=1}^{n} x_i}{n}$

（总体）方差 (Population) Variance

反映总体中各个数据与总体均值的距离和数据的集中趋势，是为了方便描述数据特征而构造的的人造结构

$\sigma^2=\dfrac{(x_1-\mu)^2+(x_2-\mu)^2+(x_3-\mu)^2+...+(x_N-\mu)^2}{N}=\dfrac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}$

推论统计学 Inferential Statistics

根据对样本的描述推断总体的情况

样本方差 Sample Variance

与总体方差同理，通常会小于总体方差

$S^2=\dfrac{(x_1-\overline{x})^2+(x_2-\overline{x})^2+(x_3-\overline{x})^2+...+(x_n-\overline{x})^2}{n}=\dfrac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n}$

总体方差的无偏估计 Unbiased Estimate of The Variance

一种更接近总体方差的样本方差对总体方差的估计值

$S^2 =S_{n-1}^2=\dfrac{(x_1-\overline{x})^2+(x_2-\overline{x})^2+(x_3-\overline{x})^2+...+(x_n-\overline{x})^2}{n-1}=\dfrac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}$

标准差 Standard Deviation $\sigma$

方差的平方根

$\sigma=\sqrt{\sigma^2}=\sqrt{\dfrac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}}$

方差$\sigma^2$公式的简化

$\begin{align} \sigma^2 &= \dfrac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}\\ &= \dfrac{\sum_{i=1}^{N}(x_i^2-2x_i\mu+\mu^2)}{N}\\ &= \dfrac{\sum_{i=1}^{N}x_i^2}{N}-2*\dfrac{\sum_{i=1}^{N}x_i}{N}*\mu+\dfrac{\sum_{i=1}^{N}\mu^2}{N}\\ &= \dfrac{\sum_{i=1}^{N}x_i^2}{N}-2\mu^2+\mu^2\\ &= \dfrac{\sum_{i=1}^{N}x_i^2}{N}-\mu^2\\ &= \dfrac{\sum_{i=1}^{N}x_i^2}{N}-\dfrac{(\sum_{i=1}^{N}x_i)^2}{N^2}\\ \end{align}$

随机过程 Random Process

简单理解：会发生一组随机事件的过程，例如抛硬币或者掷骰子

输出值 Output

随机过程中随机事件发生的结果，随机变量的取值

随机变量 Random Variable $X$

随机过程中的随机事件结果集合，是用来量化随机过程的函数，从随机过程映射到数值

例如明天是否下雨

$X=\begin{cases} 0, & \text{if it doesn't rain tomorrow}, \\ 1, & \text{otherwise}. \end{cases}$

或抛硬币哪面朝上

$X=\begin{cases} 0,&\text{if heads,} \\ 1,&\text{if tails.} \end{cases}$

离散型随机变量 Discrete Random Variable

数值个数有限、可以枚举、数值大小不连续

连续型随机变量 Continuous Random Variable

无穷个数值、枚举无法覆盖全部情况、数值大小连续

概率密度函数 Probability Density Function $f(x)$

在数学中，连续型随机变量的概率密度函数是一个描述这个随机变量的输出值在某个确定的取值点附近的可能性的函数（不是概率大小，区别于概率质量函数）。密度函数上单独的某一点表现的是概率质量函数在某一点的变化率。

图形示例

{:.shadow}

构成过程：参考YouTube

概率大小和概率密度的关系

给定一个区间，则这个区间上概率密度函数的积分就是随机变量 X 落在这个区间内的概率

$P(a \leq X \leq b)=\int_a^bf(X)d_x\\$

某点的概率密度函数即为概率在该点的变化率(或导数).
随机过程中所有事件发生的概率之和（概率密度函数曲线下方的面积）为 1

$\int_{-\infty}^\infty f(x)d_x=1$

参考：知乎

概率质量函数 Probability Mass Function

离散随机变量在各特定取值上的概率

概率质量函数和概率密度函数不同之处在于：概率质量函数是对离散随机变量定义的，本身代表该值的概率

累积分布函数 Cumulative Distribution Function

也叫概率分布函数、分布函数。是概率密度函数的积分，概率函数取值的集合结果，表示离散变量中所有小于等于 a 的输出值出现概率的和

${F_{X}(x)=\operatorname {P} (X\leq x)}$

期望值 Expected Value $E(X)$

总体均值、数学期望、或均值，亦简称期望

离散性随机变量的期望值是试验中每次可能的结果乘以其结果概率的总和

如果$X$是离散型随机变量，输出值为 $x{1},x{2},\ldots$，和输出值相应的概率为 $p{1},p{2},\ldots$（概率和为 1）。

${E} (X)=\sum _{i}p_{i}x_{i}$

参考：维基百科

伯努利试验

单次成功/失败试验又称为伯努利试验

二项分布 Binomial Distribution

n 个独立的是/非试验中成功的次数的离散概率分布

二项分布的概率

设进行 n 次伯努利试验，结果为是的概率 P(是)=p，结果为非的概率 P(非)=1-p，结果为是次数为 k

结果为是次数为 k 的概率为

$P(X=k)= \Big( \begin{split} n \\ k \end{split} \Big)p^k(1-p)^{n-k};\Big( \begin{split} n \\ k \end{split} \Big)=\dfrac{N!}{k!(N-k)!}$

n=1 时的二项分布称为伯努利分布

二项分布的期望

设进行 n 次伯努利试验，结果为是的概率 P(是)=p，结果为否的概率 P(非)=1-p，结果为是次数为 k，$a = k-1,b = n-1,n-k = b-a$。总体期望值为

$\begin{align} E(X) &= \sum_{k=0}^nk\Big( \begin{split} n \\ k \end{split} \Big)p^k(1-p)^{n-k};\\ &= 0 + 1\Big( \begin{split} n\\ 1 \end{split} \Big)p^1(1-p)^{n-1} + ... +n\Big( \begin{split} n\\ n \end{split} \Big)p^n(1-p)^{n-n}\\ &= \sum_{k=1}^nk\Big( \begin{split} n\\ k \end{split} \Big)p^k(1-p)^{n-k}\\ &= \sum_{k=1}^nk\dfrac{n!}{k!(n-k)!}p^k(1-p)^{n-k}\\ &= \sum_{k=1}^nk\dfrac{n!}{k(k-1)!(n-k)!}p^k(1-p)^{n-k}\\ &= \sum_{k=1}^n\dfrac{n!}{(k-1)!(n-k)!}p^k(1-p)^{n-k}\\ &= \sum_{k=1}^n\dfrac{n(n-1)!}{(k-1)!(n-k)!}p*p^{k-1}(1-p)^{n-k}\\ &= np\sum_{k=1}^n\dfrac{(n-1)!}{(k-1)!(n-k)!}p^{k-1}(1-p)^{n-k}\\ &= np\sum_{a=0}^b\dfrac{b!}{a!(b-a)!}p^a(1-p)^{b-a}\\ &= np\sum_{a=0}^b\dfrac{b!}{a!(b-a)!}p^a(1-p)^{b-a}\\ &= np\sum_{a=0}^b\Big( \begin{split} b\\ a \end{split} \Big)p^a(1-p)^{b-a}\\ &= np \end{align}$

参考：维基百科

泊松分布 Poisson Distribution

一种离散分布，二项分布的极限

适合描述单位时间内随机事件发生的次数的概率分布。例：一段时间内一个路口的车流量、餐馆的就餐人数、汽车站台的候客人数、机器出现的故障数。

泊松分布的概率质量函数

$\lambda={某一随机事件在一段时间内发生的平均次数 \over 这段时间的长度}$ ，或者理解为期望值

$P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}$

推导(二项分布角度)

$e=\lim_{n\to\infty}\left(1+{1 \over n}\right)^n\\$

设${1 \over n}={a \over x},x=na,E(X) = \lambda = np$

$\begin{align} \lim_{n\to\infty}\left(1+{1 \over n}\right)^{na} &= \lim_{n\to\infty}\left(\left(1+{1 \over n}\right)^n\right)^a\\ &= \lim_{n\to\infty}\left(\left(1+{1 \over n}\right)^n\right)^a\\ &= \left(\lim_{n\to\infty}\left(1+{1 \over n}\right)^n\right)^a\\ &= e^a\\ \end{align}$

当 n 趋于无穷时

$\begin{align} \lim_{n\to\infty} P(X=k)&=\lim_{n\to\infty}{n \choose k} p^k (1-p)^{n-k} \\ &=\lim_{n\to\infty}{n! \over (n-k)!k!} \left({\lambda \over n}\right)^k \left(1-{\lambda\over n}\right)^{n-k}\\ &=\lim_{n\to\infty} {\left[\frac{n!}{n^k\left(n-k\right)!}\right]} \left(\frac{\lambda^k}{k!}\right) {\left(1-\frac{\lambda}{n}\right)^n} {\left(1-\frac{\lambda}{n}\right)^{-k}}\\ &=\lim_{n\to\infty} \underbrace{\left[\frac{n(n-1)(n-2)...(n-k+1)}{n^k}\right]}_{\to 1} \left(\frac{\lambda^k}{k!}\right) \underbrace{\left(1-\frac{\lambda}{n}\right)^n}_{\to e^{-\lambda}} \underbrace{\left(1-\frac{\lambda}{n}\right)^{-k}}_{\to 1}\\ &= \left(\frac{\lambda^k}{k!}\right)e^{-\lambda}\\ \end{align}$

大数定律 Law of Larger Numbers

在重复试验中，随着试验次数的增加，事件发生的频率趋于一个稳定值。样本数量越多，则其算术平均值就有越高的概率接近期望值。

正态分布 Normal Distribution

一种离散型分布，泊松分布的极限

若随机变量服从一个数学期望为$μ$、方差为$σ^2$的正态分布，记为$X∼N(μ，σ2)$。其概率密度函数为

$f(x)=\frac{1}{\sqrt{2\pi}\cdot\sigma}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$

$\mu=0,\sigma=1$的正态分布是标准正态分布
使用正态分布近似代替二项分布时，必须进行连续性修正

Z 分数 Z-Score

表示给定值与平均值间距离多少个标准差

经验法则 Empirical Rule

又叫 3-sigma 法则或者 68-95-99.7 法则，用于对已知平均数和标准差的正态分布数据进行快速推算

在正态分布中，几乎所有数据都将落在均值的三倍标准差内。所述经验规则表明，68%的数据将分布在的第一个标准偏差之内，95%将落在第二个标准差之内，和 99.7%将落在均值的前三个标准偏差之内。

参考：百度百科

样本均值的抽样分布 Sampling Distribution of the Sample Mean

从原本的总体中取多个样本，对所有样本的样本均值进行抽样构成的频率分布。这个分布的均值与原总体均值相同。

中心极限定理 The Central Limit Theorem

在适当的条件下，随机变量中的大量样本均值近似服从正态分布

置信区间 Confidence Intervals

随机变量的样本均值分布中最常见的 95%的样本均值的范围

偏度 Skew

正态分布的偏度为零，偏度为正的意味着右侧尾部较长（峰值偏小），为负意味着左侧尾部较长（峰值偏大）。

峰度 Kurtosis

峰度为正，峰值较尖，峰度为负，峰值较钝

样本容量越大，峰度和偏度越小，更接近正态分布，分布距离均值越近。

$lim_{1\to+\infty}P(|\frac{1}{n}\sum_i^nX_i-\mu|<\epsilon)=1, i=1,...,n$