预备知识。
σ代数
学习测度论是为了对积分学、对概率论、进而对统计学有一个更好的理解。
0 一些集合论
给定一个集合X,对于每个n有E_n⊂X,得到集合的序列{E_n}。仿照对实数极限的定义,考虑$\lim \sup 与\lim \inf $。
定义0.1 集合序列的上极限
\lim \sup E\_{n}=\bigcap\_{k=1}^{\\inf ty}(\bigcup\_{n=k}^{\\inf ty}E\_{n})$$即先固定一个$k$,将其取并集;再对每个$k$取交集。意即$$\lim \sup E\_{n}=\lbrace x\in X:x属于无穷多个E\_{n} \rbrace
定义0.2 集合序列的下极限
\lim \inf E\_{n}=\bigcup\_{k=1}^{\\inf ty}(\bigcap\_{n=k}^{\\inf ty}E\_{n})$$即先固定一个$k$,将其取交集;再对每个$k$取并集。意即$$\lim \inf E\_{n}=\lbrace x\in X:x属于除了有限个以外的E\_{n} \rbrace$$或可以理解为从某一项开始(故而此项之前那些为有限个)从此项开始后面都属于$E\_{n}$。而定义0.1中的无穷多个可以跳着属于,也可以连着属于。而下极限只能连着属于。故而,有$$\lim \inf E\_{n}\subset \lim \sup E\_{n}
定义0.3 集合序列的极限
如果$$\lim \inf E_{n}=\lim \sup E_{n}$$我们说集合序列{E_n}的极限存在,即limE_n存在,且limE_n就是前述那个(当上极限与下极限相等时是同一个)集合。
性质0.4
(1) ⋂_nE_n⊂liminfE_n⊂limsupE_n⊂⋃_nE_n;
(2) (liminfE_n)c=limsup(E_n)c;
(3) (limsupE_n)c=liminf(E_n)c。
定义1 σ代数
X为一个集合,A⊂P(X),如果A满足如下三个条件,则称其为一个定义在X上的**σ代数**
(1)X∈A;
(2)任给A∈A,有Ac∈A;
(3)任给可数个(比如我们指定指标集为N)A_n∈A,有⋃_n=1inftyA_n∈A;
(3′)任给可数个A_n∈A,有⋂_n=1inftyA_n∈A。
【注】当给定(1)和(2)时,(3)与(3′)是等价的。σ是可数之意。
定义2 可测空间
我们定义可测空间为X={Xˉ,F_Xˉ},其中Xˉ称为承载集(Underlying Space),而F_Xˉ是定义在承载集Xˉ上的σ代数。如果有某个集合A∈F_Xˉ,则我们称此A是**F_Xˉ可测**的。
定义3 可测映射
X,Y为两个可测空间,我们称映射f:X→Y是可测映射,如果任给B∈F_Yˉ,都有f−1(B)∈F_Xˉ。
【注】此定义可以与连续函数的开集(或闭集)定义相类比。
定义4 生成
令X为集合,A_j(j∈J)是定义在X上的一系列σ代数,则⋂_j∈JA_j依然是一个定义在X上的σ代数。如果对于j∈J考虑了所有包含X的σ代数A_j,则我们称A(X):=⋂_j∈JA_j是由X 生成的σ代数。易知,此A(X)是将X包含于其内的最小的σ代数。
定义5 测度
{X,F}为可测空间,我们称一个函数μ:F→[0,infty](其中[0,infty]=[0,infty)∪{infty}称为拓展后的正实数域,记为Rˉ_+)为定义在{X,F}上的一个测度,若μ满足:
(1)任给互不相交的可数个A_n∈F都有μ(⋃_n=1inftyA_n)=∑_n=1inftyμ(A_N)。
(2)至少存在一个A∈F,其测度是有限的μ(A)<infty。
(2′)μ(∅)=0。
【注】
在给定条件(1)时,(2)与(2′)是等价的;
互不相交指两两彼此不相交,在国外许多数学教材里称这种情况为互斥,这种称法与国内部分教材相异;
当以拓展后的实数域为背景时,等号左右两边同时减去一个相同的项,要先确定此项为有限值。
定义6 测度空间
我们称{X,F,μ}为一个测度空间,其中F为定义在X上的σ代数,而μ为定义在{X,F}上的测度。
定义7 概率空间与概率测度
当定义6中的μ满足μ(X)=1时,我们称{X,F,μ}为一个概率空间,而μ为一个概率测度。
另一种定义方式:
P:F→[0,1]为一个映射。其中F为Ω的子集构成的σ代数。如果P满足如下三个条件,我们则称P是定义在{Ω,F}上的一个概率测度:
(1)对于每个A∈F都有P(A)≥0;
(2)P(Ω)=1;
(3)对于不相交的A_j∈F,P(⋃_j=1inftyA_j)=∑_j=1inftyP(A_j)。
我们称{Ω,F,P}为一个概率空间,其中Ω为样本空间(所有可能结果–即样本点组成的集合),F为由Ω的子集组成的σ域,而P为定义在{Ω,F}上的一个概率测度。
【注】如果F本身为有限集,那么若想从F中寻找出可数无限多个不相交的子集,仅有的可能便是寻找有限个非空子集,而其他无限多个皆为空集。此时,条件(3)便退化为不相交的A,B∈F有P(A_1∪A_2)=P(A_1)+P(A_2),并可经归纳法拓展到任何有限个集合(注意,归纳法只能拓展到任意有限个,而无法得出原条件(3))。如果把范围从σ代数扩大到一般性的代数(而不仅有限),则例如强大数定律等许多有用的结论将不再成立。
定理1
如果一个代数仅包含有限个集合,则它自动成为σ代数。进而,如果一个代数是由有限集Ω的子集所组成,它也是σ代数。
当Ω从有限集变为无限集时,类似的性质不能得到满足。比如集族F_∗由Ω=(0,1]中形如(a,b]的区间及其有限并外加空集∅构成。其中a<b均为来自[0,1]的比例数(即有理数)。此F_∗为代数。其后,令p_n=[10nπ]/10n而a_n=1/p_n,其中[x]表示满足≤x的最大整数。易知p_n↑π而a_n↓π−1当n→infty。因此,对于n=1,2,3,...有(a_n,1]∈F_∗,但⋃_n=1infty(a_n,1]=(π−1,1]∈/F_∗,因为左端点π−1不是比例数。鉴于此,我们发现F_∗对于可数并不是封闭的,因此F_∗不是σ代数。
定理2
若F是一个代数,则根据归纳法,从“凡A,B∈F必有A∩B”可知其不仅对两集合A,B成立,而可推广至任意有限个集合之交,即对于任何j=1,...,n<infty个A_j∈F都有⋂_j=1nA_j∈F。若由Ω之子集构成的集族F满足对取补封闭,且满足前述条件,则其成为代数。
定理3
若F是一个σ代数,则对于任意可数个集合A_j∈F都有⋂_j=1inftyA_j∈F。非空集合Ω之子集构成的集族F若满足对取补封闭,且满足前述条件,则其成为σ代数。
【注】在对取补封闭的条件下,“对可数交封闭”和“对可数并封闭”这两个条件哪个容易验证就去验证哪个,因为在对取补封闭的条件下,根据德摩根律这两个条件是等价的。
定理4
若F为一个代数,且j=1,2,3...可数个A_j(未必彼此不相交)属于F。则存在彼此不相交的可数个B_j满足⋃_j=1inftyA_j=⋃_j=1inftyB_j,而对F是否为σ代数的验证可通过检验B_j在可数并下的表现来进行。
矩阵
迹和秩是矩阵的两个关键的不变性。
实对称阵
实对称阵可用正交矩阵对角化。
迹
迹的轮换性
trace(ABCD)=trace(BCDA)=trace(CDAB)=trace(DABC)
实对称阵的迹等于其特征很之和。
对角化
C′AC=Λ。
矩阵微分
一阶微分
关于列向量的微分仍是列向量;
关于行向量的微分仍是行向量;
关于矩阵的微分同理。
∂x∂y保持与x同样的结构。
统计量的矩阵表示
假定X_1,...,X_n来自正态总体N(μ,σ2)。则:
μ^=Xˉ=n1∑_iX_i;
S2=σ2^=n−11∑_i(X_i−Xˉ)2。
如果定义列向量i=(1,...,1),则:
μ^=n1i′X。
而X−iXˉ=X−n1ii′X=(I−n1ii′)X,我们将I−n1ii′记为M0。
而M0是对称的幂等矩阵。
S2=n−11(X−iXˉ)′(X−iXˉ)=n−11X′M0′M0X=n−11X′M0X。
X′AX=y′C′ACy=y′Λy。
如果Λ里的λ_i除了为0就是为1,并且假设y为n维标准正态分布,则y的每个分量也是N(0,1)。
此时二次型X′AX就是自由度为m的卡方分布χ2(m),其中m为取值为1的特征根个数。
矩阵分解
谱分解
乔勒斯基分解
奇异值分解
概率与统计
大样本分布理论
在多数情况下,在一组给定规模的样本中估计量是否无偏或抽样方差究竟如何是未知的。但当样本规模扩大时,我们能够得到关于估计量分布情况的近似结果。例如,无论个体观测值的分布具体为何,只要样本量持续扩大,样本均值将近似于正态分布。利用关于估计量分布极限行为的信息可以对有限样本时估计量的分布作出近似的推断。在考察如上理论之前,有必要了解一下随机变量的收敛性。
依概率收敛
称随机变量x_n依概率收敛于常数c,若对于无论多小的正数ϵ,都有lim_n→inftyProb(x_n−c>ϵ)=0。此处x_n的下标n指样本量。
依概率收敛表示,当样本量持续扩大时,“随机变量取值异于c”这件事越来越不可能。例如,随机变量x_n以1−(1/n)的概率取0,而以(1/n)的概率取n。随着n持续变大,x_n将以趋近于0的概率取值趋向于无穷,此时,x_n依概率收敛到值0。这一类型的收敛之核心在于,概率分布将向常数c集中。
我们也记plimx_n=c。
全期望法则(二重律,迭代期望法则)
E[E(y∣X)]=E(y).
E[E(y∣x,z)∣X]=E(y∣X).
推论
E[Y−E(Y∣X~)∣X]=0,如果X⊂X~.意即:大信息集总是更优的。
大数定律
样本矩依概率收敛于总体矩。
中心极限定理
样本矩与总体矩之差除以样本规模的平方根,此比率渐进正态分布。
连续映射定理
概率极限算子可以穿过连续函数。(相区别:期望算子不能穿过连续函数,比如詹森不等式所表现的。)