基于条件期望的最优预测
我不得不承认我的孤陋寡闻: 在《随机建模与优化》的课堂上,我还是第一次知道有条件期望E(X︱Y)这个概念。虽然之前我学习过条件概率和期望这两个重要的概念,但对于条件期望我完全不知道。对我来说,学习了条件期望这个全新的概念及性质,我对它产生了兴趣。通过后面的继续学习以及我自己在课外找到的许多相关资料,我尝试着去发现条件期望在现实中的具体应用。
条件期望是现代概率体系中的一个重要概念,在实际生活中许多问题都可以利用它解决,在概率论的理论与应用上也起着重要的作用。直接的理论应用,根据条件期望的性质我们可以利用条件期望求随机变量的期望和方差。在保险业中就有很多利用条件期望求随机变量方差的例子。确实,在实际生活中,只要你仔细观察,你就会发现条件期望的应用还是比较广泛。在条件期望的诸多应用中,利用条件数学期望解决预测问题是我最感兴趣的。
有时我们会遇到联合分布随机向量的各分量之间的预测问题。比如,人的身高ξ与体重η,在网上有一个流行的公式是η=ξ-110,其中ξ以厘米为单位,而η以公斤为单位,可以拿它作为用身高预测体重的公式,但是为了评价这个预测公式的好坏,就要提出一个标准,以“均方误差最小”作为目标,即若得到R.VY的观察值,根据这些观察值试图预测另一个R.VY的取值,令g(Y)表示这个预测,即若Y的观察值等于y,那么g(y)就是对R.VX的预测值,即选择一个函数g,使g(Y)尽可能接近X,选择函数g的一种准则就是使E[x-g(Y)2]的取值达到最小,我们可以证明在这种准则下,对Y的最优可能预测为g(Y)=E[X|Y]。 由于在最小预测误差方差意义下的最优预测值就是它的条件期望。条件期望在预测问题中有重要作用. 若X与Y是相依的随机变量,如何找出X与Y的函数关系?下面命题说明在均方意义下,在已知随机变量X 的条件下, E(Y|X)是Y的最佳预测。
命题:设X,Y是随机变量, g(x)是Borel函数,则E[(Y-g(X))2]≥E(Y-E(Y|X))2] 证明: E[(Y-g(X))2|X]
= E(Y-E(Y|X)+E(Y|X)-g(X))2|X]
= E(Y-E(Y|X))2|X]+E(E(Y|X)-g(X))2|X]+2E[(Y-E(Y|X))(E(Y|X)-g(x))|X]
上面最后项中,因式E(Y|X)-g(X)当X取定值时是常数,所以
E[(Y-E(Y|X))(E(Y|X)-g(X))|X]=(E(Y|X)-g(X))·E[(Y-E(Y|X))|X]=0 故得 E[(Y-g(X))2|X]≥E(Y-E(Y|X))2|X]。
由全数学期望公式得,两边取数学期望,就得到命题的证明。
1
通常当观察到X=x时, E[Y|X=x]是一切对Y的估计值中均方误差最小的一个,则称之为Y关于X的回归。
例 设身高为x (cm)的男子其成年儿子的身高服从均值为x+3 ,方差为10的正态分布,问身高为175cm的男子,其成年儿子的身高的最佳预测值是多少?
分析:令X表示父亲身高, Y表示儿子身高,则Y = X + 3 +ζ,其中,ζ~ N (0 ,10) ,ζ与X 独立,由上面的结论可知, Y 的最佳预测是 E(Y|X=175)=E(X+3+ζ|X=175)
=175+3+ E(ζ|X=175)=178+Eζ=178(cm)
再如某大型商场的服装销售量已进入稳态期,因此,其月销量记录,可认为是一个宽平稳随机序列。现有48个月的销售记录,其月平均销量为3 万件,统计数据如表1 所示:
表1 每月销量与平均销量之差
t 1 2 3 4 5 6 7 8
yt t yt t yt t yt t yt t yt 2.30 3.51 -1.49 2.22 2.43 2.23 -0.82 -3.79 9 -4.47 10 -4.94 11 -4.56 12 -2.16 13 -3.49 14 -3.27 15 -2.63 16 -1.47 17 -1.56 18 -0.55 19 -1.82 20 -0.37 21 -0.37 22 -0.71 23 0.11 24 1.05 25 2.52 26 2.40 27 0.39 28 0.58 29 0.92 30 0.49 31 1.32 32 0.89 33 1.90 34 1.40 35 1.01 36 1.62 37 1.41 38 1.05 39 -0.65 41 1.34 42 -0.86 43 -0.50 44 -1.10 45 -1.05 46 1.28 47 1.15 40 1.94 48 -0.24 试对表1 的数据建立模型和进行预测。首先估算样本序列的标准自相关函数和偏相关函数。此序列是AR(2)模型。其模型方程是yt=φ1yt-1+φ2yt-2+at,对参数φ1,φ2用最小二乘估计可得:φ1+0.9φ2=0.9,0.9φ1+φ2=0.84。 解此方程可得:φ1=0.7538,φ2=0.158, 可得: 一步预测方程:yt(1)=0.7538yt+0.158yt-1, 二步预测方程:yt (2)=0.7538yt (1)+0.158yt, 三步预测方程:yt(3)=0.7538yt (2)+0.158yt(1)。
对上述预测公式以t=47 进行一步、二步、三步预测,并与实测数据对比。为对上述预
2
测做出区间估计,根据矩估计可估算出σa的估计值:
σ2a=r0(1-φ1ρ1-φ2ρ2)。
计算得到r0=4.0372,σ2a=4.0372(1-0.7538×0.9-0.158×0.84)=0.7625,从而 σα=0.8732。此外又根据模型的传递形式,可算出y47(1)、y47(2)、y47(3)的95%置信预测区间分别为:(-2.7164,0.7764)、(-3.047,1.327)、(-3.3282,1.7282)。
可以看出,通过“均方误差最小”时为最优预测可以解决一系列的预测问题。在当前的社会环境下,经济发展是重要问题。通过条件期望可以预测小至一个公司的日常运作,大至世界经济的未来发展方向,并且可以根据它所做出的预测做出相应的决策。所以,条件期望的经济应用将会越来越为人们所关注。
2
3
因篇幅问题不能全部显示,请点此查看更多更全内容