Skip to content

实用概率论基础

前言

写蒙特卡洛积分的文章的时候上头了,写了一堆概率论基础相关的东西。寻思着干脆单独开一篇文章,以后要是需要用到相关知识,可以直接引用这篇文章。文章中有大量的外部引用,也是为了方便读者和我查阅相关概念。

严谨地构建整套概率理论需要实变和测度理论的大量前置支撑,我也不想事无巨细地讨论全部细节,搞的和教科书一样。本文主要还是讨论一些intuitive的理解和可能能用到的一些概念,因此会跳过不少细节。完备的定义和证明可以参考文中的外链和相关教科书。

概率空间

一个概率空间由三元组(Ω,F,P)(\Omega, \mathscr{F}, \mathbb{P})组成。对于没有实变基础的读者,可以做如下理解:

  • Ω\Omega样本空间) 就是所有可能的结果,比如掷骰子,Ω={1,2,3,4,5,6}\Omega = \{1, 2, 3, 4, 5, 6\}
  • F\mathscr{F}事件空间)是可能结果的组合构成的集合。同样是掷骰子的例子,{1,2}\{1, 2\}{2,4,5}\{2, 4, 5\}等都是F\mathscr{F}的元素。
  • P\mathbb{P}概率测度)是定义在F\mathscr{F}上的一种“面积/长度”(测度),除了满足通常面积所需的性质之外,我们还要求P(Ω)=1\mathbb{P}(\Omega) = 1,即所有可能结果的测度之和为1。

技术细节(测度论相关)

测度理论就是试图给任意点集定义长度或者面积而发展出来的。

  • 由于不是任意集合都能合理地定义面积(例如Vatali集),对于一般的不可数集Ω\Omega,我们不能直接取F=2Ω\mathscr{F}=2^{\Omega},而是需要剔除掉那些无法定义面积的集合。
  • 为了定义面积,我们选取的集合需要满足一些性质,满足这些性质的集合族被称为σ-代数。因此,F\mathscr{F}应当是Ω\Omega上的一个σ\sigma-代数
  • 能定义良好的面积的集合(σ\sigma-代数的元素)称为可测集,反之称为不可测集
  • 可测函数是能保证可测集的原像也是可测集的函数。直观上,这样的函数能让我们用值域的“长度”乘上定义域的“长度”来定义积分。

在概率空间这套语言下,我们可以定义随机变量XX,它是一个从Ω\OmegaR\mathbb{R}的可测函数。XX分布函数FX(x)F_X(x)定义为:

FX(x)=P(Xx)=P({ωΩX(ω)x})F_X(x) = \mathbb{P}(X \leq x) = \mathbb{P}(\{\omega \in \Omega \mid X(\omega) \leq x\})

按照定义以及σ\sigma-代数的性质,可以证明FX(x)F_X(x)单增右连续,并且F()=0F(-\infty)=0F()=1F(\infty)=1

另外,如果存在函数fXf_X,满足:

xfX(t)dt=FX(x)\int_{-\infty}^x f_X(t) \mathrm{d}t = F_X(x)

那么称fXf_XXX概率密度函数。显然如果FXF_X可导,那么它的导数是一个概率密度函数。

因为在一个零测集上改变fXf_X值并不会影响积分结果,所以fXf_X如果存在,则不是唯一的。

Stieltjes积分与期望

为了统一离散型和连续型随机变量的期望定义,我们引入所谓的Stieltjes积分。回想Riemann积分的定义:

abf(x)dx=limP0i=1nf(xi)Δxi\int_a^b f(x) \mathrm{d}x = \lim_{\|P^*\| \to 0} \sum_{i=1}^n f(x_i^*) \Delta x_i

在上面的定义中,如果我们不对xx做积分,而是改为对某个实值函数g(x)g(x)做积分,那么就得到了Riemann-Stieltjes积分

abfdg=limP0i=1nf(xi)Δgi\int_a^b f \mathrm{d}g = \lim_{\|P^*\| \to 0} \sum_{i=1}^n f(x_i^*) \Delta g_i

S积分实质上是更换了区间长度的度量方式,应当将Δg\Delta g视为一种测度。

Abel求和公式的差分形式Δ(figi)=fi+1Δgi+giΔfi\Delta (f_i g_i) = f_{i+1} \Delta g_i + g_i \Delta f_i代入到R-S积分的定义中,我们可以得到分部积分公式:

abfdg=(fg)ababgdf\int_a^b f \mathrm{d}g = (fg)\Big\vert_a^b - \int_a^b g \mathrm{d}f

类似地,我们也有换元积分公式:

AB(fφ)d(αφ)=abfdα\int_A^B (f\circ\varphi) \mathrm{d}(\alpha\circ\varphi) = \int_a^b f \mathrm{d}\alpha

其中,φ:[A,B][a,b]\varphi: [A, B] \to [a, b]是连续的有界变差函数,且φ(A)=a\varphi(A)=aφ(B)=b\varphi(B)=b

R-S可积性

ff关于gg的R-S积分存在,则称ff关于gg R-S可积,记为fR(g)f\in \mathcal{R}(g)

关于R-S可积性,我们有以下结论:

R-S积分的可积性

  • ff[a,b][a, b]上有界且几乎处处连续gg[a,b][a, b]上单调右连续且在ff的间断点上连续,那么fR(g)f\in \mathcal{R}(g)
  • ff[a,b][a, b]上连续,gg[a,b][a, b]上单调,那么fR(g)f\in \mathcal{R}(g)

由分部积分公式可知,上述R-S可积的结论中关于ffgg的要求可以互换。

结论2的证明可以在Rudin的数学分析原理中找到(定理6.8)。

结论1的证明则需要仿照L积分和R积分的关系引入L-S积分的概念。需要注意的是,为了定义L-S积分,我们必须要求gg右连续,否则关于gg的L-S测度可能不存在。(参考分布函数右连续和σ\sigma-代数的关系)

:考虑到有界变差函数总是可以分解成两个单调函数的差,所以上面关于单调的要求不难推广到有界变差的情况。

R-S积分与Riemann积分和离散求和的联系

显然当g(x)=xg(x)=x时,R-S积分退化为Riemann积分。更一般地,如果存在密度函数ρ(x)\rho(x)使得g(x)=axρ(t)dtg(x)=\int_a^x \rho(t) \mathrm{d}t,那么以下等式成立:

abfdg=abf(x)ρ(x)dx\int_a^b f \mathrm{d}g = \int_a^b f(x) \rho(x) \mathrm{d}x

如果gg可导,那么由中值定理和R-S积分的定义,我们不难得到:

abfdg=abfgdx\int_a^b f \mathrm{d}g = \int_a^b f g' \mathrm{d}x

因此,如果φ\varphi可微,前述的换元积分公式也可以写作我们熟悉的形式:

abfdx=ABf(φ(y))φ(y)dy\int_a^b f \mathrm{d}x = \int_A^B f(\varphi(y)) \varphi'(y) \mathrm{d}y

技术细节(导函数的可积性)

  • 可导函数的导函数不一定Riemann可积,即使保证导数有界也仍然有反例(Volterra函数)。
  • 即便将可积的定义放宽到Lebesgue可积,也仍然有导函数不可积的例子(可以参考这个StackExchange讨论)。但我们能证明有界的导函数总是Lebesgue可积的。
  • 为了使任意导函数可积,我们得使用Gauge积分(Henstock-Kurzweil积分)作为R积分和L积分的推广。

引入S积分后,我们可以考察对不连续变量的积分。例如,考虑Heaviside单位阶跃函数H(x)H(x)

H(x)=1x0={1x00x<0H(x) = \mathbf{1}_{x\geq 0} = \begin{dcases} 1 & x \geq 0 \\ 0 & x < 0 \\ \end{dcases}

如果s(a,b)s\in (a, b)α(x)=1xs=H(xs)\alpha(x) =\mathbf{1}_{x\geq s} = H(x-s)ff[a,b][a, b]上有界且在x=sx=s处连续,那么按定义有:

abfdα=f(s)\int_a^b f \mathrm{d}\alpha = f(s)

进而取α(x)=i=1ci1xsi\alpha(x) = \displaystyle \sum_{i=1}^{\infty} c_i \mathbf{1}_{x\geq s_i},其中sis_i互不相同,ci\sum c_i收敛,若ffsis_i处连续,则有

abfdα=i=1cif(si)\int_a^b f \mathrm{d}\alpha = \sum_{i=1}^{\infty} c_i f(s_i)

特殊地,我们有

abfdx=n=abf(n)\int_a^b f \mathrm{d}\lfloor x \rfloor = \sum_{n=\lceil a \rceil}^{\lfloor b \rfloor} f(n)

这表明离散求和也可看成是S积分的特殊形式。

至此我们统一了积分和求和的语言,可以统一在S积分的框架下讨论离散和连续的求和问题。

本文只讨论了R-S积分,但将Stieltjes测度应用到更一般的Lebesgue积分乃至Gauge积分并不困难。只是一些改善积分性质的技术细节而已,就不过多深入了。

Further Reading

  • 数学分析原理(Rudin),第6章 Riemann-Stieltjes积分
  • Theories of Integration - The Integrals of Riemann, Lebesgue, Henstock-Kurzweil, and McShane (Douglas S Kurtz, Charles W. Swartz)
  • Kurzweil-Stieltjes Integral and Its Applications (Giselle A. Monteiro, Antonín Slavík, Milan Tvrdý)

随机变量的期望

使用S积分,我们可以将离散型和连续型随机变量的期望E(X)\mathbb{E}(X)统一定义为:

E(X)=xdF\mathbb{E}(X) = \int_{-\infty}^{\infty} x \mathrm{d}F

其中FFXX的分布函数。从这个意义上来说,随机变量的期望可以理解为在分布函数FF上的S积分

应用分部积分公式,我们也可以把期望表示为:

E(X)=0(1F)dx0Fdx\mathbb{E}(X) = \int_{0}^{\infty} (1-F) \mathrm{d}x - \int_{-\infty}^{0} F \mathrm{d}x

如果XX只在{0,1,}\{0, 1, \cdots\}上取值,那么则有

E(X)=n=0(1F(n))=n=0P(X>n)\mathbb{E}(X) = \sum_{n=0}^{\infty} (1-F(n)) = \sum_{n=0}^{\infty} \mathbb{P}(X > n)

Dirac δ-函数与广义密度函数

对一般的分布函数F(x)F(x)来说,满足

xf(t)dt=F(x)\int_{-\infty}^x f(t) \mathrm{d}t = F(x)

的概率密度函数f(x)f(x)未必存在:各种离散型随机变量的分布函数就是典型的例子。但很多时候我们又形式上地需要一个密度函数,这时候就不得不引入广义函数相关的理论了。

Dirac δ-函数

作为最简单的例子,考虑Heaviside阶跃函数H(x)H(x)的导数。显然通常意义上H(x)H(x)x=0x=0处不可导,但我们可以形式上地定义一个广义函数δ(x)\delta(x)

δ(x)dx=dH(x)\delta(x)\mathrm{d}x = \mathrm{d} H(x)

按前一节讨论的Stieltjes积分,我们知道δ(x)\delta(x)满足

δ(x)f(x)dx=f(x)dH=f(0)\int_{-\infty}^{\infty} \delta(x) f(x) \mathrm{d}x =\int_{-\infty}^{\infty} f(x) \mathrm{d}H = f(0)

δ(x)\delta(x)被称为Dirac δ\delta-函数,它并不是通常意义上的函数,而是一个广义函数

广义密度函数

关于广义函数的理论涉及到泛函分析的相关知识,这里简单介绍下思路。

我们回归到动机:我们希望给任意分布函数找到对应的密度函数,使得相应的期望计算能够使用密度函数来进行——实际上,我们并不关心密度函数本身在某一点的值,而只关心它与任意函数乘积的积分

我们考虑函数空间上的施瓦兹内积:

f,g=Γf(x)g(x)dx\langle f, g \rangle = \int_{\Gamma} f(x) g(x) \mathrm{d}x

在内积这个意义上,f(x)f(x)这个函数和f,\langle f, \cdot \rangle没有实质的区别,可以认为是(分布意义上)等价的。于是我们就用连续线性泛函f,\langle f, \cdot \rangle来代替函数f(x)f(x)。一般地,任意连续线性泛函未必能对应到某个函数,相当于拓宽了函数的定义,这些“多出来”的函数就是广义函数。

利用内积实现广义函数的理论被称为分布理论

技术细节

  • 连续线性泛函f,\langle f, \cdot \rangle是在所谓测试函数空间D(Γ)\mathfrak{D}(\Gamma)上定义的
  • 测试函数φD(Γ)\varphi\in \mathfrak{D}(\Gamma)满足无穷可微且φ(k)(x)=0\varphi^{(k)}(x)=0xΓx\notin \Gamma以及k{0,1,}k\in \{0,1,\cdots\}成立。(即φ(k)(x)\varphi^{(k)}(x)Γ\Gamma上有紧支集。)

弱导数

如果我们将内积中的积分看作Stieltjes积分,那么利用分部积分和测试函数的性质,我们不难得到广义函数的导数:

f,φ=Γfφdx=Γφdf=Γfdφ=f,φ\begin{aligned} \langle f', \varphi \rangle &= \int_{\Gamma} f'\varphi \mathrm{d}x \\ &= \int_{\Gamma} \varphi \mathrm{d}f \\ &= -\int_{\Gamma} f \mathrm{d}\varphi = -\langle f, \varphi' \rangle \end{aligned}

这个定义和通常的导数定义是一致的,不难验证这个弱导数也满足通常导数的运算性质(线性性、乘法法则、链式法则等)。但按照S可积的条件,我们可以对任意有界变差函数定义分布意义上的弱导数

于是形式上,任意的概率分布函数都可以定义一个广义密度函数f(x)f(x)了。

另一条路线是利用σ\sigma-有限测度和Radon-Nikodym定理对任意两个概率测度定义R-N导数,取其中一个为均匀分布则得到广义概率密度函数。但实际上和上面的过程是等价的。

大数定律

大数定律描述了随机变量序列的平均值收敛到其期望值的行为,弱大数定律描述了依概率收敛的情况,而强大数定律描述了几乎必然收敛的情况。

Khinchin弱大数定律

X1,X2,X_1, X_2, \cdots是独立同分布的随机变量序列,且E(Xi)=μ\mathbb{E}(X_i) = \mu,则对于任意ε>0\varepsilon > 0,有:

limnP(1ni=1nXiμε)=0\lim_{n \to \infty} \mathbb{P} \left( \left| \frac{1}{n} \sum_{i=1}^n X_i - \mu \right| \geq \varepsilon \right) = 0

1ni=1nXiPμ,n\frac{1}{n} \sum_{i=1}^n X_i \overset{\mathbb{P}}{\to} \mu, \quad n \to \infty

Kolmogorov强大数定律

X1,X2,X_1, X_2, \cdots是相互独立的随机变量序列,且E(Xi)=μi\mathbb{E}(X_i) = \mu_ii=1D(Xi)i2<\displaystyle \sum_{i = 1}^{\infty} \dfrac{\mathbb{D}(X_i)}{i^2}<\infty,则:

P(limn1ni=1n(Xiμi)=0)=1 \mathbb{P}(\lim_{n \to \infty} \frac{1}{n} \sum_{i=1}^n (X_i - \mu_i) = 0) = 1

1ni=1n(Xiμi)a.s.0,n\frac{1}{n} \sum_{i=1}^n (X_i - \mu_i) \overset{a.s.}{\to} 0, \quad n \to \infty

推论

X1,X2,X_1, X_2, \cdots是独立随机变量序列,且具有相同的均值和方差,E(X)=μ\mathbb{E}(X) = \muD(X)<\mathbb{D}(X)<\infty,则:

1ni=1nXia.s.μ,n\frac{1}{n} \sum_{i=1}^n X_i \overset{a.s.}{\to} \mu, \quad n \to \infty

证明:注意著名的巴塞尔级数:i=11i2=π26\displaystyle \sum_{i = 1}^{\infty} \dfrac{1}{i^2} = \dfrac{\pi^2}{6}即可。

注意辛钦弱大数定理并不要求方差存在,而Kolmogorov强大数定律则要求方差存在且有限。

Last updated: