世界是随机的:大数据时代的概率统计学
上QQ阅读APP看书,第一时间看更新

2.2 期望与方差:百变骰子

在当下的信息时代,人人生产信息,人人分享信息,我们忽然意识到,最稀缺的资源早已不是信息,而是人们的注意力。无论是一篇网文、一幅漫画,还是一部电影,引起人们注意的不二法则就是——简洁明确的特征。网文要有充满悬疑的话题;漫画要有个性鲜明的画风;电影则最好有一两个大牌明星,一切都要有特征,没有特征,便会沦为平庸。

在概率论的世界里,随机变量也像网文、漫画和电影一样需要特征,这些特征应该能够反映一个随机变量的本质,这些特征主要有两个,一个叫期望;另一个叫方差。

假定有四个不同的骰子,如图2-1所示,这四个骰子会带领我们认识期望和方差。

图2-1 四个骰子游戏

期望

期望是随机变量的第一个特征,它类似于我们常说的平均值,但又不是简单的求和平均。我们沿用上一节的例子来说明什么是期望。

还记得莫雷的骰子赌局吗?表2-3列出了莫雷赌局所有可能出现的结果,随机变量X表示莫雷赢得的筹码。根据X的取值和对应的概率,可以计算出X的期望:

表2-3 莫雷赌局的结果

EX)=0.518×(+1)+0.482×(-1)=0.036

由此,我们可以得到这样的结论:莫雷每一局所赢筹码的期望是0.036两黄金。

数学期望,简称期望,是随机变量的所有取值以对应概率为权重的加权求和。换言之,随机变量的每一个取值乘以它对应的概率,再相加求和,就得到了随机变量的期望。

设随机变量Xn个取值,分别是x1, x2, …, xn,对应的概率分别是p1, p2, …, pn,那么X的期望EX)是:

EX)=x1·p1+x2·p2+…+xn ·pn

这里需要说明,上一节我们提到过,随机变量分为离散和连续两种,由于连续性随机变量的计算涉及微积分,超出了本书的讨论范围,所以,本章只讨论离散随机变量。

下面,我们通过两个骰子游戏进一步理解期望。

·骰子游戏1

掷骰子一次,随机变量X是掷出的点数,计算X的期望。

我们如法炮制,列出X的取值和对应的概率,如表2-4所示。由此可以求得期望:EX)=(1/6)×1+(1/6)×2+(1/6)×3+(1/6)×4+

(1/6)×5+(1/6)×6

=3.5

表2-4 骰子游戏1中随机变量取值和概率

这个骰子的点数期望是3.5,可是,骰子上可没有3.5这个点数,期望值是3.5代表了什么呢?

带着这个疑问,我们换一个骰子,把原来的六点改成三点,重新来过。

·骰子游戏2

掷骰子一次,随机变量X是掷出的点数,计算X的期望。

根据表2-5,可以求得期望:

EX)=(1/6)×1+(1/6)×2+(1/6)×3+(1/6)×3+

(1/6)×4+(1/6)×5

=3

表2-5 骰子游戏2中随机变量取值和概率

这一次,点数的期望值是三点,刚好是X可能出现的点数,似乎是一个有意义的结果。可是,意义在哪里?难道反复抛掷骰子B,最终就会一直出现三点吗?显然不是。

读者可以自己设计几个骰子,算一算它们的点数期望,看看期望和点数之间是不是存在联系。最终我们会发现,期望并不一定是随机变量的某一个值,期望可以是任何数值,即使它刚好与随机变量的某个取值相同,也与这个取值没有任何关系。期望只是随机变量的一个特征值,它就像一个球体的“球心”,随机变量的取值好比球体内的点,这些点分布在球心周围,甚至就是球心本身。因此,用期望来描述随机变量,就好像用球心来描述一个球体。但是球心不足以描述球体的全部特征,球体还有另一个特征——“半径”,随机变量的另一个特征“方差”正是用来描述“半径”的。

方差

我们继续做骰子游戏。

·骰子游戏3

如图2-1所示,骰子3有六个面,却只有两个点数——一点和五点,表2-6列出了随机变量X的取值和概率,由此可以求得期望:

表2-6 骰子游戏2中随机变量取值和概率

EX)=(1/6)×1+(1/6)×1+(1/6)×1+(1/6)×5+

(1/6)×5+(1/6)×5

=3

骰子3的点数期望与骰子2一样,可是,这两个骰子明显是不同的,这时我们需要用方差来区分这两个骰子。

方差是随机变量取值与期望之差的平方,以对应概率为权重的加权求和。换言之,随机变量的每一个取值减去期望,求平方,再乘以它对应的概率,最后求和,就得到了随机变量的期望。

标准差是方差的平方根,是与期望具有可比性的一个特征值。

设随机变量Xn个取值,分别是x1, x2, …, xn,对应的概率分别是p1, p2, …, pn,那么随机变量X的方差VarX)和标准差σX)分别是

方差和标准差总是在一起使用,用来表示随机变量偏离期望的程度,偏离的程度越大,方差和标准差也越大,反之则越小。

以骰子2和骰子3为例,前面已经计算过,它们的点数期望都是3,我们来计算方差和标准差。

骰子2的点数的方差是:

VarX)=(1/6)×(1-3)2+(1/6)×(2-3)2+(1/6)×(3-3)2+

(1/6)×(3-3)2+(1/6)×(4-3)2+(1/6)×(5-3)2

=1.67

骰子2的点数的标准差是:

骰子3的点数的方差是:

VarX)=(1/6)×(1-3)2+(1/6)×(1-3)2+(1/6)×(1-3)2+

(1/6)×(5-3)2+(1/6)×(5-3)2+(1/6)×(5-3)2

=4

骰子3的点数的标准差是:

很明显,骰子3的点数方差大于骰子2的点数方差,这说明骰子3的点数距离期望值更“远”一些,或者说,骰子3的点数更加分散,这一点从表2-5和表2-6中也可以看出。如果点数距离期望值非常近会怎样呢?

·骰子游戏4

如图2-1所示,骰子4有六个面,每个面都是三点,表2-7列出了随机变量X的取值和概率,由此可以求得期望:

EX)=(1/6)×3+(1/6)×3+(1/6)×3+(1/6)×3+

(1/6)×3+(1/6)×3

=3

方差:

VarX)=(1/6)×(3-3)2+(1/6)×(3-3)2+(1/6)×(3-3)2+

(1/6)×(3-3)2+(1/6)×(3-3)2+(1/6)×(3-3)2

=0

标准差自然也是0。

表2-7 骰子游戏4中随机变量取值和概率

骰子游戏4是一个极限情况,即随机变量的每一个值都一样,这时,期望一定就是这个值,方差也一定是0——方差和标准差的最小值。事实上,这样的极端情况仅存在理论可能性,并无实际意义,骰子的所有点数都相同,又何谈随机变量和概率呢?

协方差与相关系数

两个随机变量XY组合起来构成的随机变量(X, Y)称为二维随机变量,二维随机变量的方差称为协方差。

以骰子1和骰子2为例,设随机变量X为骰子1的点数,随机变量Y为骰子2的点数,XY组成一个二维随机变量(X, Y),(X, Y)的概率分布如

表2-8所示。XY的协方差用CovX, Y)表示,计算公式为

CovX, Y)=E{[X-EX)][Y-EY)]}

由此前的计算结果可知:

EX)=3.5

EY)=3

由表2-8中的数据,可以计算得到XY的协方差为:

CovX, Y)=0

计算出协方差,便可以进而计算出随机变量XY的相关系数ρXY,相关系数的计算公式为

表2-8 二维随机变量(X, Y)的概率分布(1)

相关系数ρXY可以用来判断随机变量XY的线性相关关系,ρXY=0说明XY不存在线性相关关系,ρXY≠0说明XY存在线性相关关系。上述例子中,由于CovX, Y)为0,所以ρXY也为0,这说明骰子1的点数和骰子2的点数没有线性相关关系。

表2-9是另一组二维随机变量的概率分布,这是由两个标准骰子的点数组合而成的二维随机变量,根据协方差和相关系数的定义,可以计算得到:

Co vX, Y)=-2.92

ρXY=-1

这说明XY存在线性相关关系,观察表中数据可以看出,XY的关系是Y=7-X,这也验证了我们的结论的是正确的。

表2-9 二维随机变量(X, Y)的概率分布(2)

表2-10是第三组二维随机变量的概率分布,根据协方差和相关系数的定义,可以计算得到:

表2-10 二维随机变量(X, Y)的概率分布(3)

CovX, Y)=0

ρXY=0

这说明XY不存在线性相关关系。观察表中数据可以看出,XY的关系是Y=X2,也就是说,ρXY=0只能用于说明两个随机变量不存在线性相关关系,无法判断二者是否存在非线性相关关系,这一点读者一定要谨记。