预备知识。

σ\sigma代数

学习测度论是为了对积分学、对概率论、进而对统计学有一个更好的理解。

0 一些集合论

给定一个集合XX​,对于每个nn​E_nXE\_{n}\subset X​,得到集合的序列{E_n}\lbrace E\_{n} \rbrace​。仿照对实数极限的定义,考虑$\lim \sup \lim \inf $。

定义0.1 集合序列的上极限

\lim \sup E\_{n}=\bigcap\_{k=1}^{\\inf ty}(\bigcup\_{n=k}^{\\inf ty}E\_{n})$$即先固定一个$k$,将其取并集;再对每个$k$取交集。意即$$\lim \sup E\_{n}=\lbrace x\in X:x属于无穷多个E\_{n} \rbrace

定义0.2 集合序列的下极限

\lim \inf E\_{n}=\bigcup\_{k=1}^{\\inf ty}(\bigcap\_{n=k}^{\\inf ty}E\_{n})$$即先固定一个$k$,将其取交集;再对每个$k$取并集。意即$$\lim \inf E\_{n}=\lbrace x\in X:x属于除了有限个以外的E\_{n} \rbrace$$或可以理解为从某一项开始(故而此项之前那些为有限个)从此项开始后面都属于$E\_{n}$。而定义0.1中的无穷多个可以跳着属于,也可以连着属于。而下极限只能连着属于。故而,有$$\lim \inf E\_{n}\subset \lim \sup E\_{n}

定义0.3 集合序列的极限

如果$$\lim \inf E_{n}=\lim \sup E_{n}$$我们说集合序列{E_n}\lbrace E\_{n} \rbrace的极限存在,即limE_n\lim E\_{n}存在,且limE_n\lim E\_{n}就是前述那个(当上极限与下极限相等时是同一个)集合。

性质0.4

(1) _nE_nliminfE_nlimsupE_n_nE_n\bigcap\_{n}E\_{n}\subset \lim \inf E\_{n}\subset \lim \sup E\_{n}\subset\bigcup\_{n}E\_{n}

(2) (liminfE_n)c=limsup(E_n)c(\lim \inf E\_{n})^{c}=\lim \sup (E\_{n})^{c}

(3) (limsupE_n)c=liminf(E_n)c(\lim \sup E\_{n})^{c}=\lim \inf (E\_{n})^{c}

定义1 σ\sigma代数

XX​为一个集合,AP(X)\mathscr A\subset\mathscr P(X)​,如果A\mathscr A​满足如下三个条件,则称其为一个定义在XX​上的**σ\sigma​代数**

(1)XAX\in\mathscr A

(2)任给AAA\in\mathscr A,有AcAA^{c}\in\mathscr A

(3)任给可数个(比如我们指定指标集为N\mathbb NA_nAA\_{n}\in\mathscr A,有_n=1inftyA_nA\bigcup\_{n=1}^{\\inf ty}A\_{n}\in\mathscr A

(3{3}')任给可数个A_nAA\_{n}\in\mathscr A,有_n=1inftyA_nA\bigcap\_{n=1}^{\\inf ty}A\_{n}\in\mathscr A

【注】当给定(1)和(2)时,(3)与(3{3}')是等价的。σ\sigma是可数之意。

定义2 可测空间

我们定义可测空间X={Xˉ,F_Xˉ}X=\lbrace \bar X,\mathscr F\_{\bar X} \rbrace,其中Xˉ\bar X称为承载集(Underlying Space),而F_Xˉ\mathscr F\_{\bar X}是定义在承载集Xˉ\bar X上的σ\sigma代数。如果有某个集合AF_XˉA\in \mathscr F\_{\bar X},则我们称此AA是**F_Xˉ\mathscr F\_{\bar X}可测**的。

定义3 可测映射

X,YX,Y为两个可测空间,我们称映射f:XYf:X\rightarrow Y可测映射,如果任给BF_YˉB\in \mathscr F\_{\bar Y},都有f1(B)F_Xˉf^{-1}(B)\in \mathscr F\_{\bar X}

【注】此定义可以与连续函数的开集(或闭集)定义相类比。

定义4 生成

XX为集合,A_j\mathscr A\_{j}jJj\in J)是定义在XX上的一系列σ\sigma代数,则_jJA_j\bigcap\_{j\in J}\mathscr A\_{j}依然是一个定义在XX上的σ\sigma代数。如果对于jJj\in J考虑了所有包含XXσ\sigma代数A_j\mathscr A\_{j},则我们称A(X):=_jJA_j\mathscr A(X):=\bigcap\_{j\in J}\mathscr A\_{j}是由XX 生成σ\sigma代数。易知,此A(X)\mathscr A(X)是将XX包含于其内的最小的σ\sigma代数。

定义5 测度

{X,F}\lbrace X,\mathscr F \rbrace为可测空间,我们称一个函数μ:F[0,infty]\mu:\mathscr F\rightarrow\left[0,\\inf ty\right](其中[0,infty]=[0,infty){infty}\left[0,\\inf ty\right]=\left[0,\\inf ty\right)\cup\lbrace \\inf ty \rbrace称为拓展后的正实数域,记为Rˉ_+\bar{\mathbb R}\_{+})为定义在{X,F}\lbrace X,\mathscr F \rbrace上的一个测度,若μ\mu满足:

(1)任给互不相交的可数个A_nFA\_{n}\in\mathscr F都有μ(_n=1inftyA_n)=_n=1inftyμ(A_N)\mu(\bigcup\_{n=1}^{\\inf ty}A\_{n})=\sum\_{n=1}^{\\inf ty}\mu(A\_{N})

(2)至少存在一个AFA\in\mathscr F,其测度是有限的μ(A)<infty\mu(A)<\\inf ty

(2{2}')μ()=0\mu(\varnothing)=0

【注】

在给定条件(1)时,(2)与(2{2}')是等价的;

互不相交指两两彼此不相交,在国外许多数学教材里称这种情况为互斥,这种称法与国内部分教材相异;

当以拓展后的实数域为背景时,等号左右两边同时减去一个相同的项,要先确定此项为有限值。

定义6 测度空间

我们称{X,F,μ}\lbrace X,\mathscr F,\mu \rbrace为一个测度空间,其中F\mathscr F为定义在XX上的σ\sigma代数,而μ\mu为定义在{X,F}\lbrace X,\mathscr F \rbrace上的测度。

定义7 概率空间与概率测度

当定义6中的μ\mu满足μ(X)=1\mu(X)=1时,我们称{X,F,μ}\lbrace X,\mathscr F,\mu \rbrace为一个概率空间,而μ\mu为一个概率测度

另一种定义方式:

P:F[0,1]P:\mathscr F\rightarrow\left[0,1\right]​为一个映射。其中F\mathscr F​Ω\Omega​的子集构成的σ\sigma​代数。如果PP​满足如下三个条件,我们则称PP​是定义在{Ω,F}\lbrace \Omega,\mathscr F \rbrace​上的一个概率测度

(1)对于每个AFA\in\mathscr F都有P(A)0P(A)\geq0

(2)P(Ω)=1P(\Omega)=1

(3)对于不相交的A_jFA\_{j}\in\mathscr FP(_j=1inftyA_j)=_j=1inftyP(A_j)P(\bigcup\_{j=1}^{\\inf ty}A\_{j})=\sum\_{j=1}^{\\inf ty}P(A\_{j})

我们称{Ω,F,P}\lbrace \Omega,\mathscr F,P \rbrace为一个概率空间,其中Ω\Omega为样本空间(所有可能结果–即样本点组成的集合),F\mathscr F为由Ω\Omega的子集组成的σ\sigma域,而PP为定义在{Ω,F}\lbrace \Omega,\mathscr F \rbrace上的一个概率测度。

【注】如果F\mathscr F本身为有限集,那么若想从F\mathscr F中寻找出可数无限多个不相交的子集,仅有的可能便是寻找有限个非空子集,而其他无限多个皆为空集。此时,条件(3)便退化为不相交的A,BFA,B\in\mathscr FP(A_1A_2)=P(A_1)+P(A_2)P(A\_{1}\cup A\_{2})=P(A\_{1})+P(A\_{2}),并可经归纳法拓展到任何有限个集合(注意,归纳法只能拓展到任意有限个,而无法得出原条件(3))。如果把范围从σ\sigma代数扩大到一般性的代数(而不仅有限),则例如强大数定律等许多有用的结论将不再成立。

定理1

如果一个代数仅包含有限个集合,则它自动成为σ\sigma代数。进而,如果一个代数是由有限集Ω\Omega的子集所组成,它也是σ\sigma代数。

Ω\Omega从有限集变为无限集时,类似的性质不能得到满足。比如集族F_\mathscr F\_{\ast}Ω=(0,1]\Omega=\left(0,1\right]中形如(a,b]\left(a,b \right]的区间及其有限并外加空集\varnothing构成。其中a<ba<b均为来自[0,1]\left[0,1\right]的比例数(即有理数)。此F_\mathscr F\_{\ast}为代数。其后,令p_n=[10nπ]/10np\_{n}=\left[10^{n}\pi\right]/10^{n}a_n=1/p_na\_{n}=1/p\_{n},其中[x]\left[x\right]表示满足x\leq x的最大整数。易知p_nπp\_{n}\uparrow\pia_nπ1a\_{n}\downarrow\pi^{-1}ninftyn\rightarrow\\inf ty。因此,对于n=1,2,3,...n=1,2,3,...(a_n,1]F_\left(a\_{n},1 \right]\in\mathscr F\_{\ast},但_n=1infty(a_n,1]=(π1,1]F_\bigcup\_{n=1}^{\\inf ty}\left(a\_{n},1 \right]=\left(\pi^{-1},1 \right]\notin\mathscr F\_{\ast},因为左端点π1\pi^{-1}不是比例数。鉴于此,我们发现F_\mathscr F\_{\ast}对于可数并不是封闭的,因此F_\mathscr F\_{\ast}不是σ\sigma代数。

定理2

F\mathscr F是一个代数,则根据归纳法,从“凡A,BFA,B\in\mathscr F必有ABA\cap B”可知其不仅对两集合A,BA,B成立,而可推广至任意有限个集合之交,即对于任何j=1,...,n<inftyj=1,...,n<\\inf tyA_jFA\_{j}\in\mathscr F都有_j=1nA_jF\bigcap\_{j=1}^{n}A\_{j}\in\mathscr F。若由Ω\Omega之子集构成的集族F\mathscr F满足对取补封闭,且满足前述条件,则其成为代数。

定理3

F\mathscr F是一个σ\sigma代数,则对于任意可数个集合A_jFA\_{j}\in\mathscr F都有_j=1inftyA_jF\bigcap\_{j=1}^{\\inf ty}A\_{j}\in\mathscr F。非空集合Ω\Omega之子集构成的集族F\mathscr F若满足对取补封闭,且满足前述条件,则其成为σ\sigma代数。

【注】在对取补封闭的条件下,“对可数交封闭”和“对可数并封闭”这两个条件哪个容易验证就去验证哪个,因为在对取补封闭的条件下,根据德摩根律这两个条件是等价的。

定理4

F\mathscr F为一个代数,且j=1,2,3...j=1,2,3...可数个A_jA\_{j}(未必彼此不相交)属于F\mathscr F。则存在彼此不相交的可数个B_jB\_{j}满足_j=1inftyA_j=_j=1inftyB_j\bigcup\_{j=1}^{\\inf ty} A\_{j}=\bigcup\_{j=1}^{\\inf ty} B\_{j},而对F\mathscr F是否为σ\sigma代数的验证可通过检验B_jB\_{j}在可数并下的表现来进行。

矩阵

迹和秩是矩阵的两个关键的不变性。

实对称阵

实对称阵可用正交矩阵对角化。

迹的轮换性

trace(ABCD)=trace(BCDA)=trace(CDAB)=trace(DABC)trace(ABCD)=trace(BCDA)=trace(CDAB)=trace(DABC)

实对称阵的迹等于其特征很之和。

对角化

CAC=Λ{C}'AC=\Lambda

矩阵微分

一阶微分

关于列向量的微分仍是列向量;
关于行向量的微分仍是行向量;
关于矩阵的微分同理。
yx\frac{\partial y}{\partial x}保持与xx同样的结构。

统计量的矩阵表示

假定X_1,...,X_nX\_{1},...,X\_{n}来自正态总体N(μ,σ2)N\left(\mu,\sigma^{2}\right)。则:
μ^=Xˉ=1n_iX_i\hat{\mu}=\bar{X}=\frac{1}{n}\sum\_{i}X\_{i}
S2=σ2^=1n1_i(X_iXˉ)2S^{2}=\hat{\sigma^{2}}=\frac{1}{n-1}\sum\_{i}\left(X\_{i}-\bar{X}\right)^{2}
如果定义列向量i=(1,...,1)i=\left(1,...,1\right),则:
μ^=1niX\hat{\mu}=\frac{1}{n}{i}'X
XiXˉ=X1niiX=(I1nii)XX-i\bar{X}=X-\frac{1}{n}i{i}'X=\left(I-\frac{1}{n}i{i}'\right)X,我们将I1niiI-\frac{1}{n}i{i}'记为M0M^{0}
M0M^{0}是对称的幂等矩阵。
S2=1n1(XiXˉ)(XiXˉ)=1n1XM0M0X=1n1XM0XS^{2}=\frac{1}{n-1}{\left(X-i\bar{X}\right)}'\left(X-i\bar{X}\right)=\frac{1}{n-1}{X}'{M^{0}}'M^{0}X=\frac{1}{n-1}{X}'M^{0}X

XAX=yCACy=yΛy{X}'AX={y}'{C}'ACy={y}'\Lambda y
如果Λ\Lambda里的λ_i\lambda\_{i}除了为00就是为11,并且假设yynn维标准正态分布,则yy的每个分量也是N(0,1)N\left(0,1\right)
此时二次型XAX{X}'AX就是自由度为mm的卡方分布χ2(m)\chi^{2}(m),其中mm为取值为11的特征根个数。

矩阵分解

谱分解
乔勒斯基分解
奇异值分解

概率与统计

大样本分布理论

在多数情况下,在一组给定规模的样本中估计量是否无偏或抽样方差究竟如何是未知的。但当样本规模扩大时,我们能够得到关于估计量分布情况的近似结果。例如,无论个体观测值的分布具体为何,只要样本量持续扩大,样本均值将近似于正态分布。利用关于估计量分布极限行为的信息可以对有限样本时估计量的分布作出近似的推断。在考察如上理论之前,有必要了解一下随机变量的收敛性。

依概率收敛

称随机变量x_nx\_{n}依概率收敛于常数cc,若对于无论多小的正数ϵ\epsilon,都有lim_ninftyProb(x_nc>ϵ)=0\lim \_{n\rightarrow\\inf ty}Prob\left(\left|x\_{n}-c\right|>\epsilon\right)=0。此处x_nx\_{n}的下标nn指样本量。

依概率收敛表示,当样本量持续扩大时,“随机变量取值异于cc”这件事越来越不可能。例如,随机变量x_nx\_{n}1(1/n)1-(1/n)的概率取00,而以(1/n)(1/n)的概率取nn。随着nn持续变大,x_nx\_{n}将以趋近于00的概率取值趋向于无穷,此时,x_nx\_{n}依概率收敛到值00。这一类型的收敛之核心在于,概率分布将向常数cc集中。

我们也记plimx_n=cp\lim x\_{n}=c

全期望法则(二重律,迭代期望法则)

E[E(yX)]=E(y)E\left[E(y\mid X)\right]=E(y).
E[E(yx,z)X]=E(yX)E\left[E(y\mid x,z)\mid X\right]=E(y\mid X).

推论

E[YE(YX~)X]=0E\left[Y-E\left(Y\mid\tilde{X}\right)\mid X\right]=0,如果XX~X\subset\tilde{X}.意即:大信息集总是更优的。

大数定律

样本矩依概率收敛于总体矩。

中心极限定理

样本矩与总体矩之差除以样本规模的平方根,此比率渐进正态分布。

连续映射定理

概率极限算子可以穿过连续函数。(相区别:期望算子不能穿过连续函数,比如詹森不等式所表现的。)