实用概率论基础
前言
写蒙特卡洛积分的文章的时候上头了,写了一堆概率论基础相关的东西。寻思着干脆单独开一篇文章,以后要是需要用到相关知识,可以直接引用这篇文章。文章中有大量的外部引用,也是为了方便读者和我查阅相关概念。
严谨地构建整套概率理论需要实变和测度理论的大量前置支撑,我也不想事无巨细地讨论全部细节,搞的和教科书一样。本文主要还是讨论一些intuitive的理解和可能能用到的一些概念,因此会跳过不少细节。完备的定义和证明可以参考文中的外链和相关教科书。
概率空间
一个概率空间由三元组(Ω,F,P)组成。对于没有实变基础的读者,可以做如下理解:
- Ω(样本空间) 就是所有可能的结果,比如掷骰子,Ω={1,2,3,4,5,6}。
- F(事件空间)是可能结果的组合构成的集合。同样是掷骰子的例子,{1,2},{2,4,5}等都是F的元素。
- P(概率测度)是定义在F上的一种“面积/长度”(测度),除了满足通常面积所需的性质之外,我们还要求P(Ω)=1,即所有可能结果的测度之和为1。
技术细节(测度论相关)
测度理论就是试图给任意点集定义长度或者面积而发展出来的。
- 由于不是任意集合都能合理地定义面积(例如Vatali集),对于一般的不可数集Ω,我们不能直接取F=2Ω,而是需要剔除掉那些无法定义面积的集合。
- 为了定义面积,我们选取的集合需要满足一些性质,满足这些性质的集合族被称为σ-代数。因此,F应当是Ω上的一个σ-代数。
- 能定义良好的面积的集合(σ-代数的元素)称为可测集,反之称为不可测集。
- 可测函数是能保证可测集的原像也是可测集的函数。直观上,这样的函数能让我们用值域的“长度”乘上定义域的“长度”来定义积分。
在概率空间这套语言下,我们可以定义随机变量X,它是一个从Ω到R的可测函数。X的分布函数FX(x)定义为:
FX(x)=P(X≤x)=P({ω∈Ω∣X(ω)≤x})
按照定义以及σ-代数的性质,可以证明FX(x)单增右连续,并且F(−∞)=0,F(∞)=1。
另外,如果存在函数fX,满足:
∫−∞xfX(t)dt=FX(x)
那么称fX为X的概率密度函数。显然如果FX可导,那么它的导数是一个概率密度函数。
因为在一个零测集上改变fX值并不会影响积分结果,所以fX如果存在,则不是唯一的。
Stieltjes积分与期望
为了统一离散型和连续型随机变量的期望定义,我们引入所谓的Stieltjes积分。回想Riemann积分的定义:
∫abf(x)dx=∥P∗∥→0limi=1∑nf(xi∗)Δxi
在上面的定义中,如果我们不对x做积分,而是改为对某个实值函数g(x)做积分,那么就得到了Riemann-Stieltjes积分:
∫abfdg=∥P∗∥→0limi=1∑nf(xi∗)Δgi
S积分实质上是更换了区间长度的度量方式,应当将Δg视为一种测度。
把Abel求和公式的差分形式Δ(figi)=fi+1Δgi+giΔfi代入到R-S积分的定义中,我们可以得到分部积分公式:
∫abfdg=(fg)ab−∫abgdf
类似地,我们也有换元积分公式:
∫AB(f∘φ)d(α∘φ)=∫abfdα
其中,φ:[A,B]→[a,b]是连续的有界变差函数,且φ(A)=a,φ(B)=b。
R-S可积性
若f关于g的R-S积分存在,则称f关于g R-S可积,记为f∈R(g)
关于R-S可积性,我们有以下结论:
R-S积分的可积性
- 若f在[a,b]上有界且几乎处处连续,g在[a,b]上单调右连续且在f的间断点上连续,那么f∈R(g)
- 若f在[a,b]上连续,g在[a,b]上单调,那么f∈R(g)
由分部积分公式可知,上述R-S可积的结论中关于f和g的要求可以互换。
结论2的证明可以在Rudin的数学分析原理中找到(定理6.8)。
结论1的证明则需要仿照L积分和R积分的关系引入L-S积分的概念。需要注意的是,为了定义L-S积分,我们必须要求g右连续,否则关于g的L-S测度可能不存在。(参考分布函数右连续和σ-代数的关系)
注:考虑到有界变差函数总是可以分解成两个单调函数的差,所以上面关于单调的要求不难推广到有界变差的情况。
R-S积分与Riemann积分和离散求和的联系
显然当g(x)=x时,R-S积分退化为Riemann积分。更一般地,如果存在密度函数ρ(x)使得g(x)=∫axρ(t)dt,那么以下等式成立:
∫abfdg=∫abf(x)ρ(x)dx
如果g可导,那么由中值定理和R-S积分的定义,我们不难得到:
∫abfdg=∫abfg′dx
因此,如果φ可微,前述的换元积分公式也可以写作我们熟悉的形式:
∫abfdx=∫ABf(φ(y))φ′(y)dy
引入S积分后,我们可以考察对不连续变量的积分。例如,考虑Heaviside单位阶跃函数H(x):
H(x)=1x≥0={10x≥0x<0
如果s∈(a,b),α(x)=1x≥s=H(x−s),f在[a,b]上有界且在x=s处连续,那么按定义有:
∫abfdα=f(s)
进而取α(x)=i=1∑∞ci1x≥si,其中si互不相同,∑ci收敛,若f在si处连续,则有
∫abfdα=i=1∑∞cif(si)
特殊地,我们有
∫abfd⌊x⌋=n=⌈a⌉∑⌊b⌋f(n)
这表明离散求和也可看成是S积分的特殊形式。
至此我们统一了积分和求和的语言,可以统一在S积分的框架下讨论离散和连续的求和问题。
本文只讨论了R-S积分,但将Stieltjes测度应用到更一般的Lebesgue积分乃至Gauge积分并不困难。只是一些改善积分性质的技术细节而已,就不过多深入了。
Further Reading
- 数学分析原理(Rudin),第6章 Riemann-Stieltjes积分
- Theories of Integration - The Integrals of Riemann, Lebesgue, Henstock-Kurzweil, and McShane (Douglas S Kurtz, Charles W. Swartz)
- Kurzweil-Stieltjes Integral and Its Applications (Giselle A. Monteiro, Antonín Slavík, Milan Tvrdý)
随机变量的期望
使用S积分,我们可以将离散型和连续型随机变量的期望E(X)统一定义为:
E(X)=∫−∞∞xdF
其中F是X的分布函数。从这个意义上来说,随机变量的期望可以理解为在分布函数F上的S积分。
应用分部积分公式,我们也可以把期望表示为:
E(X)=∫0∞(1−F)dx−∫−∞0Fdx
如果X只在{0,1,⋯}上取值,那么则有
E(X)=n=0∑∞(1−F(n))=n=0∑∞P(X>n)
Dirac δ-函数与广义密度函数
对一般的分布函数F(x)来说,满足
∫−∞xf(t)dt=F(x)
的概率密度函数f(x)未必存在:各种离散型随机变量的分布函数就是典型的例子。但很多时候我们又形式上地需要一个密度函数,这时候就不得不引入广义函数相关的理论了。
Dirac δ-函数
作为最简单的例子,考虑Heaviside阶跃函数H(x)的导数。显然通常意义上H(x)在x=0处不可导,但我们可以形式上地定义一个广义函数δ(x):
δ(x)dx=dH(x)
按前一节讨论的Stieltjes积分,我们知道δ(x)满足
∫−∞∞δ(x)f(x)dx=∫−∞∞f(x)dH=f(0)
δ(x)被称为Dirac δ-函数,它并不是通常意义上的函数,而是一个广义函数。
广义密度函数
关于广义函数的理论涉及到泛函分析的相关知识,这里简单介绍下思路。
我们回归到动机:我们希望给任意分布函数找到对应的密度函数,使得相应的期望计算能够使用密度函数来进行——实际上,我们并不关心密度函数本身在某一点的值,而只关心它与任意函数乘积的积分。
我们考虑函数空间上的施瓦兹内积:
⟨f,g⟩=∫Γf(x)g(x)dx
在内积这个意义上,f(x)这个函数和⟨f,⋅⟩没有实质的区别,可以认为是(分布意义上)等价的。于是我们就用连续线性泛函⟨f,⋅⟩来代替函数f(x)。一般地,任意连续线性泛函未必能对应到某个函数,相当于拓宽了函数的定义,这些“多出来”的函数就是广义函数。
利用内积实现广义函数的理论被称为分布理论。
技术细节
- 连续线性泛函⟨f,⋅⟩是在所谓测试函数空间D(Γ)上定义的
- 测试函数φ∈D(Γ)满足无穷可微且φ(k)(x)=0对x∈/Γ以及k∈{0,1,⋯}成立。(即φ(k)(x)在Γ上有紧支集。)
弱导数
如果我们将内积中的积分看作Stieltjes积分,那么利用分部积分和测试函数的性质,我们不难得到广义函数的导数:
⟨f′,φ⟩=∫Γf′φdx=∫Γφdf=−∫Γfdφ=−⟨f,φ′⟩
这个定义和通常的导数定义是一致的,不难验证这个弱导数也满足通常导数的运算性质(线性性、乘法法则、链式法则等)。但按照S可积的条件,我们可以对任意有界变差函数定义分布意义上的弱导数。
于是形式上,任意的概率分布函数都可以定义一个广义密度函数f(x)了。
另一条路线是利用σ-有限测度和Radon-Nikodym定理对任意两个概率测度定义R-N导数,取其中一个为均匀分布则得到广义概率密度函数。但实际上和上面的过程是等价的。
大数定律
大数定律描述了随机变量序列的平均值收敛到其期望值的行为,弱大数定律描述了依概率收敛的情况,而强大数定律描述了几乎必然收敛的情况。
Khinchin弱大数定律
设X1,X2,⋯是独立同分布的随机变量序列,且E(Xi)=μ,则对于任意ε>0,有:
n→∞limP(n1i=1∑nXi−μ≥ε)=0
即
n1i=1∑nXi→Pμ,n→∞
Kolmogorov强大数定律
设X1,X2,⋯是相互独立的随机变量序列,且E(Xi)=μi,i=1∑∞i2D(Xi)<∞,则:
P(n→∞limn1i=1∑n(Xi−μi)=0)=1
即
n1i=1∑n(Xi−μi)→a.s.0,n→∞
推论
若X1,X2,⋯是独立随机变量序列,且具有相同的均值和方差,E(X)=μ,D(X)<∞,则:
n1i=1∑nXi→a.s.μ,n→∞
证明:注意著名的巴塞尔级数:i=1∑∞i21=6π2即可。
注意辛钦弱大数定理并不要求方差存在,而Kolmogorov强大数定律则要求方差存在且有限。