最大似然估计与矩估计

最大似然估计
设统计模型\[X=(X_1,X_2,\cdots,X_n)\sim P_\theta(\theta\in \Theta).\]对于固定的样本值\((x_1,\cdots,x_n)\),关于参数\(\theta\)的函数\[L(\theta)=\prod_{i=1}^n P_\theta(X_i=x_i)\text(离散型)\]\[L(\theta)=\prod_{i=1}^n p(x_i,\theta)\text(连续型)\]称为似然函数。
如果似然函数存在最大值,则\[\hat{\theta}=arg\max_{\theta\in\Theta} L(\theta)\]称为\(\theta\)的最大似然估计(ML估计)。
一般求解最大似然估计的步骤如下:
(1) 建立统计模型(由经验或背景知识确定);
(2) 求解\(L(\theta)\)的最大值,以及在何时取到;此时\(x_1,\cdots,x_n\)为参数,\(L(\theta)\)应为关于\(\theta\)的函数;
(3) 代入数据\(x_1,\cdots,x_n\),得到\(\hat{\theta}.\)

矩估计
设\(X_1,\cdots,X_n\)为来自总体\(X\sim F_\theta(\theta\in\Theta)\)的一个样本,以下的矩存在且有限。
(1) l阶总体矩\(\alpha_l = E_\theta(X^l)\),其估计定义为相应的样本矩,即\[\hat{\alpha_l} = a_l = \frac{1}{n} \sum_{i=1}^n X_i^l.\]
(2) 若连续函数\(\phi\)使得\(g(\theta) = \phi(\alpha_1,\cdots,\alpha_k)\),则\(g(\theta)\)的矩估计定义为\[\hat{g}(\theta) = \phi(a_1,\cdots,a_k).\]
矩估计的理论依据是大数定律。

    发表于2022-02-03

概率极限定理

随机变量序列的收敛性
定义. 下设\(\eta,\zeta_1,\zeta_2,\cdots\)是随机变量。注意它们都是定义在概率空间\((\Omega,F,P)\)上的实值函数。
(1) 如果\[P(\lim_{n\to\infty} \zeta_n = \eta)=1,\]称\(\{\zeta_n\}\)几乎必然地收敛于\(\eta\). 记作\(\zeta_n\overset{a.s.}{\to}\eta.\)
注意P是定义在\(F\subset 2^\Omega\)上的函数。这里的准确定义为\[P(\{\omega|\lim_{n\to\infty} \zeta_n(\omega) = \eta(\omega)\})=1.\]

(2) 如果对任意正数\(\epsilon\), 有\[\lim_{n\to\infty} P(|\zeta_n - \eta|\ge \epsilon)=0,\]称\(\{\zeta_n\}\)依概率收敛于\(\eta\). 记作\(\zeta_n\overset{P}{\to}\eta.\)

(3) 设\(\eta\)的分布函数\(F(x)\). 若对其任一连续点x,成立\[\lim_{n\to\infty} P(\zeta_n\le x) = P(\eta\le x),\]称\(\{\zeta_n\}\)依分布收敛(弱收敛)于\(\eta\). 记作\(\zeta_n\overset{\omega}{\to}\eta.\)

定理. 几乎必然收敛能推出依概率收敛,依概率收敛能推出依分布收敛。

定义. 下面设\(X_1,X_2,\cdots\)是依随机变量序列且\(E(X_i)\)均存在。令\(S_n = \sum_{i=1}^n X_i.\)
(1) 若\[\frac{S_n-E(S_n)}{n}\overset{P}{\to} 0,\]称\(X_1,X_2,\cdots\)服从(弱)大数律。
(2) 若\[\frac{S_n-E(S_n)}{n}\overset{a.s.}{\to} 0,\]称\(X_1,X_2,\cdots\)服从强大数律。
(3) 若还已知\(var(X_i)\)均存在,且\[\frac{S_n - E(S_n)}{\sqrt{var(S_n)}}\overset{\omega}{\to}0,\]称\(X_1,X_2,\cdots\)服从中心极限定理。

定理1. 切比雪夫大数律.
设\(X_1,X_2,\cdots\)是相互独立的随机变量,存在\(E(X_i),var(X_i)\)且\(var(X_i)\)一致有界。则\(X_1,X_2,\cdots\)服从(弱)大数律。

定理2. 柯尔莫哥洛夫强大数律.
设\(X_1,X_2,\cdots\)是相互独立的随机变量,存在\(E(X_i),var(X_i)\)且\[\sum_{n=1}^{+\infty}\frac{var(X_n)}{n^2}\]收敛,则\(X_1,X_2,\cdots\)服从强大数律。

定理3. 中心极限定理.
设\(X_1,X_2,\cdots\)独立同分布,且存在\(\mu = E(X_1),\sigma^2 = var(X_1) > 0\). 则对任意\(x\in R,\)\[\lim_{n\to\infty} P(\frac{S_n - n\mu}{\sqrt{n}\sigma}\le x) = \Phi(x).\]
这里\[\Phi(x) = \int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{u^2}{2}}du.\]
中心极限定理表明,当n很大时,\(S_n\)近似服从正态分布\(N(n\sigma,n\mu)\).

    发表于2022-01-28

随机向量

·定义 n个随机变量\(X_1,\cdots,X_n\)的整体\(\zeta = (X_1,\cdots,X_n)\)成为n维随机向量。
设\(f(x_1,\cdots,x_n)\)为n元实值函数,则随机变量\(Y = f(X_1,\cdots,X_n)\)成为随机变量\(\zeta\)的函数。

类似一维随机变量,随机向量有联合分布密度和联合分布函数的概念。以下以二维随机向量为例。

(1)离散型:\(\zeta=(X,Y)\). 若X,Y的取值范围分别是\(\{x_i\},\{y_i\}\), 令\(p_{ij} = P(X=x_i,Y=y_j)\).这里我们允许某些\(p_{ij}=0.\)
注意到\(\sum_j p_{ij} = p_i =P(X=x_i).\) 我们定义\(\zeta\)中X的概率分布为\(\zeta\)关于X的"边缘分布"。 注意,随机向量的联合分布并不能由各分量边缘分布唯一确定。

(2)连续型:如果存在非负函数\(p(x,y):R^2 \to R\)使得对任何矩形\(D=(a,b)\times(c,d)\)满足\[P((X,Y)\in D)=\iint_D p(x,y)dxdy,\]称\(\zeta\)是连续型的。
如果满足连续型的条件,则上式中的D换成任意Borel集A后均成立。

例:二维正态分布\[p(x,y) = \frac{1}{2\pi \sigma_1\sigma_2\sqrt{1-\rho^2}}\cdot \exp\{-\frac{1}{2(1-\rho^2)}[\]\[(\frac{x-\mu_1}{\sigma_1})^2 - \frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2} + (\frac{y-\mu_2}{\sigma_2})^2]\}\]
定理. \(p_X(x)=\int_R p(x,y)dy, p_Y(y)=\int_R p(x,y)dx\)分别是X,Y的分布密度。

·分布函数
\(F(x,y) = P(X\le x,Y\le y)\)称为\(\zeta\)的分布函数,也称为\((X,Y)\)的联合分布函数。
性质:(1)右连续性;
(2)\[\lim_{x\to +\infty}F(x,y) = P(Y\le y).\]
(3)如果F有二阶连续偏导数,则\[p(x,y) = \frac{\partial^2}{\partial x \partial y}F(x,y).\]

·随机变量的独立性
定义:若X,Y是随机变量。如果对任意的\(a< b , c< d\),事件\(\{X\in(a,b)\},\{Y\in (c,d)\}\)都相互独立,则称X,Y相互独立。
定理.
(1)离散型:X,Y独立当且仅当\(p_{ij} = p_i p_j.\)
(2)连续型:X,Y独立当且仅当\(p(x,y) = p_X(x)p_Y(y).\) 这又等价于\(p(x,y)\)可表示成\(p(x,y)=f(x)g(y)\)的形式。

·数学期望
定理. 设X,Y相互独立,且期望存在。则\(E(XY) = E(X)E(Y).\)
定理. 设X,Y相互独立,且期望和方差存在。则\(var(X+Y) = var(X)+var(Y).\)

均值公式.
(1)离散型:\(Ran(X,Y)=\{a_i\}.\)\[E f(X,Y) = \sum_i f(a_i)\cdot P((X,Y)=a_i).\]
(2)连续型:要求积分绝对收敛。\[Ef(X,Y) = \iint_{R^2} f(x,y)p(x,y)dxdy.\]

·随机向量的数字特征
定义:(1)设X,Y是随机变量,存在期望和方差。称\[cov(X,Y)=E((X-E(X))(Y-E(Y)))\]为X,Y的协方差,也记作\(\sigma_{XY}\).
(2)设X,Y的方差都是正数。则称\[\rho = \frac{cov(X,Y)}{\sqrt{var(X)\cdot var(Y)}}\]为X,Y的相关系数,也记作\(\rho_{XY}\).
协方差和相关系数描述变量X,Y的相关程度。当\(cov(X,Y)=0\)时,X与Y独立。注意\(|\rho|\le 1\),且\(|\rho|=1\)的充要条件是存在常数a,b使得\(P(Y=aX+b)=1.\)

对于n维向量,我们有如下定义:
设\(\zeta = (X_1,\cdots,X_n)\)是n维随机向量,每个向量都有期望\(E(X_i),var(X_i)\).
(1) 称\(E(\zeta)=(E(X_i))\)为\(\zeta\)的数学期望(或均值)。
(2) 令\[\sigma_{ij}=cov(X_i,X_j),\rho_{ij} = \frac{\sigma_{ij}}{\sqrt{\sigma_{ii}\sigma_{jj}}}.\]称矩阵\[\Sigma = (\sigma_{ij})_{n\times n},R=(\rho_{ij})_{n\times n}\]分别为\(\zeta\)的协方差阵和相关阵。注意\(\sigma_{ii}=var(X_i).\)

    发表于2022-01-26

随机变量的数学期望与方差

以下设X是随机变量。当X为离散型时,设X的可能取值为\(\{x_k\}\),并设\(P(X=x_k)=p_k\);当X为连续型时,设X的分布密度为\(p(x).\)

·数学期望
离散型:\[E(X) = \sum_k x_kp_k.\]这里约定级数绝对收敛。
连续型:\[E(X) = \int_R xp(x)dx.\]这里也要求积分绝对收敛。对于一般的随机变量,可以类似于积分的Riemann和取极限来定义。

Markov不等式:设\(X\ge0\)恒成立,且期望存在。则\[\forall C > 0, P(X\ge C)\le \frac 1 C E(X).\]
随机变量函数的数学期望(均值公式):
离散型\[E(f(X)) = \sum_k f(x_k)p_k.\]
连续型\[E(f(X)) = \int_R f(x)p(x) dx.\]

·方差
当\(E(X),E[(X-E(X))^2]\)都存在时,\(E[(X-E(X))^2]\)称为X的方差,记为\(var(X),D(X).\)若\(var(X)\)存在,称\(\sqrt{var(X)}\)为X的标准差。
离散型:\[var(X)= \sum_k x_k^2p_k - (E(X))^2.\]
连续型:\[var(X)= \int_R x^2p(x) dx - (E(X))^2.\]以上两式均可由均值公式得到。

Chebyshev不等式:\[\forall \epsilon > 0, P(|X-E(X)|\ge \epsilon)\le \frac{1}{\epsilon^2}var(X).\]

    发表于2022-01-23

随机变量与概率分布

随机变量的定义
设\((\Omega,F,P)\)是概率空间,\(X: \Omega \to R,\omega\mapsto X(\omega)\)是实值函数。
如果对\(\forall x\in R,\{\omega|X(\omega)\le x \}\in F\),称\(X\)是\((\Omega,F,P)\)上的随机变量。

随机变量是基本事件\(\omega\)的函数。\(X=X(\omega)\)的值未必能预先确定,但是\(\{\omega|X(\omega)\le x \}\)是有确定概率的。

随机变量的分布函数定义为\(F(x) = P(X\le x).\)
\(F(x)\)具有单调性和右连续性:\(F(x+0)=F(x)\), 但做连续性未必成立。这由X的定义可以看出。
此外,\(F(x)\)还满足\(F(-\infty)=0,F(+\infty)=1.\)这里的广义自变量依极限理解。
性质:\(P( X < x ) = F(x-0)\);
\(P(a < X \le b) = F(b)-F(a)\);
\(P(a \le X \le b) = F(b)-F(a-0)\);
\(P( a < X < b)= F(b-0) - F(a)\).

随机变量的分布一般属于离散型与连续型两种。
a) 对于随机变量X,如果X的取值是至多可列的,设其取值范围是\(\{x_k\}\),则称\(p_k = P(X=x_k)\)为X的概率函数或概率分布律。
b) 对于随机变量X,如果存在非负函数\(p(x)\)使得对\(\forall (a,b)\subset R,P(a< X < b) = \int_a^b p(x)dx.\)称X为连续性随机变量,并称\(p(x)\)为X的分布密度或概率密度。

定理1. 如果随机变量X的分布函数\(F(x)\)的导数处处存在,则X是连续性随机变量,且\(p(x) = F'(x).\)

常见的概率分布:
{离散型}
1. 两点分布
X的可能值是0和1,且\(P(X=1)=p,P(X=0)=1-p.\)称X服从两点分布(伯努利分布)。

2. 二项分布
X的可能值是0,1,...,且\[P(X=k)=C_n^k p^k (1-p)^{n-k}.\] 记作\(X\sim B(n,p).\)在独立试验序列中,概率为p的事件重复n次,恰发生k次的概率即为\(P(X=k)\).

3. 泊松分布
X=0,1,...,且\[P(X=k)=\frac{1}{k!}\lambda^k e^{-\lambda}.\]可以视为二项分布当\(np\to \lambda\)时的极限。

4.超几何分布
\[P(X=k) = \frac{C_D^kC_{N-D}^{n-k}}{C_N^n}.\]设N个产品中有D个次品,任取n个,其中恰有k个次品的概率。

5.负二项分布
\[P(X=k) = C_{k-1}^{r-1}p^r(1-p)^{k-r}.\]向一个目标射击,命中概率为p,第k次射击恰好射中第r次的概率。若令r=1称为几何分布。

{连续型}
6. 指数分布
\[p(x) = \lambda e^{-\lambda x}(x > 0)\]这里\(\lambda > 0. x\le 0\)时定义为0.
性质(无记忆性):\(P(X > s + t | X > s) = P(x > t).\)

7. 正态分布
\[p(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{- \frac{1}{2\sigma^2}(x-\mu)^2}.\]记作\(X\sim N(\mu , \sigma^2).\)当\( X\sim N(0,1)\)时,称作标准正态分布。此时\(p(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac {x^2}{2}}.\)

    发表于2022-01-22

随机事件与概率

概率的公理化定义
设\(\Omega\)是一非空集合,称作基本事件空间,\(F\subset P(\Omega)\)是一族子集,\(P:F\to R\)是一实值函数,满足:
1. \(\Omega \in F\);
2. F中元素在补集和可数并集运算下封闭(形成一 \(\sigma-\)代数);
3. \(P(A)\ge 0,A\in F\);
4. \(P(\Omega) =1 \);
5. 对于两两不交的子集列\(A_n\in F\),有\[P(\bigcup_{n=1}^{\infty} A_n) = \sum_{n=1}^{\infty} P(A_n).\]称P是F上的测度概率(简称概率),\(P(A)\)为事件A的概率,\((\Omega,F,P)\)是概率空间。

条件概率:在事件B发生的条件下,事件A发生的概率,记作\(P(A|B)\).
\(P(A|B)=\frac{P(AB)}{P(B)}.\)
一般乘法公式:\[P(A_1\cdots A_n) = P(A_1)P(A_2|A_1)\cdots P(A_n|A_1\cdots A_{n-1}).\]

独立事件:称事件\(A_1,\cdots ,A_n\)是相互独立的,若\[\forall n\ge k \ge 2, P(A_{i_1}\cdots P_{i_k})=\prod_{j=1}^k P(A_{i_j}).\] 这等价于\(P(A_j|A_{i_1}\cdots A_{i_m})=P(A_j)\)总成立。

Jordan公式:\[P(\bigcup_{i=1}^n A_i ) = \sum_{k=1}^n (-1)^{k-1}S_k,\]\[S_k = \sum_{i_1< i_2 < \cdots < i_k} P(A_{i_1}\cdots A_{i_k}).\]

设\(B_1,B_2,\cdots,B_n\)是完备事件组,即两两不相容且\(B_1\cup\cdots\cup B_n\)是必然事件。
全概公式:\(P(A) = \sum P(A|B_i)P(B_i)\).
逆概公式:\[P(B_k | A) = \frac{P(B_k)P(A|B_k)}{\sum P(B_i)P(A|B_i)}.\]
独立实验序列
设每次试验事件A发生的概率是p,则在n次独立试验中,A恰好发生k次的概率为\(C_n^k p^k (1-p)^{n-k}\).

    发表于2022-01-20