Arcman 发表于 2018-4-27 19:52

关于正态分布,你不知道它诞生之路是多么“变态”

关于正态分布,你不知道它诞生之路是多么“变态”

2018-04-28
超模君
中科院物理所

本文来自公众号:超级数学建模微信号 :supermodeling
神说,要有正态分布于是便有了正态分布
正态分布(Normal distribution),相信各位模友都很熟悉,不过,相对于课本直接将概念砸出来,超模君更想跟大家谈谈这些。。。
https://mmbiz.qpic.cn/mmbiz_jpg/pojyAtdhQhObYhDEHoicnibFKWswja8sicysVjbpgiawdwkZiauiaauhtfrYO0uCvK2umo9HRslE5QVTmwZ5SL63vBNw/640?wx_fmt=jpeg
https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhPiabPL8TyEkQ73viaktC5tawN8sXicny8oEaojPpDiaryH4dNPcBR2lUHQ2Fe0YMBjicmM0e1FxaageicA/640?wx_fmt=png
正态分布是最重要的一种概率分布,超模君今天也打算从早期的概率论说起。
/前方高能,数位著名数学家轮番出场。/
如何分赌金
https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhO74qA1hmsic3qmcFXqEGA8MOZG0iaPOL0lOCz2syZCmIQf8A6JF1XpiaECCwY8veMQ1HMxAn1drickYA/640?wx_fmt=png早期概率论,永远离不开赌场上的那些事,可以说早期概率论的发展都是得益于当时有点泛滥的赌博活动。
那时,惠更斯、帕斯卡、费马、雅各布·伯努利等这些早期概率论的奠基人,所研究的概率问题基本都是来自于赌场。
最早的概率论问题就是赌徒梅类在1654年向帕斯卡提出的“如何分赌金”的问题。甲乙两个人赌博,他们两人获胜的机率相等,比赛规则是先胜三局者为赢家,赢家可以获得100法郎的奖励。当比赛进行到第四局的时候,甲胜了两局,乙胜了一局,这时由于某些原因中止了比赛,那么如何分配这100法郎才算比较公平?
根据我们学过的概率论知识,易知,甲获胜就有两种情况:①甲赢了第四局,比赛结束;②甲输掉了第四局而赢了第五局。于是有,概率P(甲)=1/2+(1/2)*(1/2)=3/4。
而乙获胜的情况就只有一种,同时赢下第四局和第五局,那么,概率P(乙)=(1/2)*(1/2)=1/4。
因此,这100法郎就应该分给甲100*3/4=75法郎,分给乙100*1/4=25法郎。
https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhO74qA1hmsic3qmcFXqEGA8MJfFmLfRjn1w2VlzdC0VPEVqLR3wrbpXTOWdDfhg7hSgBbYSIcaYicCQ/640?wx_fmt=png这就是数学期望的雏形。
https://mmbiz.qpic.cn/mmbiz_jpg/pojyAtdhQhOEeuHka7EaaianiaPx89Gbs2xvEIb8Lw8Npf24ia1Ux1mBzSYJgWjZkTVOmOcoHdsbKQp69icOjaJETg/640?wx_fmt=jpeg荷兰物理学家、天文学家、数学家惠更斯:不好意思,来客串一下
1657年,惠更斯发表了《论赌博中的计算》,在当时还没有完全明确的关于“概率”的概念的情况下,从一条“公平赌博值”的公理出发,首次推导出3个关于“数学期望”的基本定理,具有划时代的意义。
[*]“公平赌博值”公理:
每个公平博弈的参与者愿意拿出经过计算的公平赌注冒险而不愿拿出更多的数量。即赌徒愿意押的赌注不大于其获得赌金的数学期望数。

[*]“数学期望”基本定理:
①若某人在赌博中以等概率1/2获得赌金a元、b元,则其数学期望值为:a*1/2+b*1/2,即( a + b)/2元;②若某人在赌博中以等概率1/3获得赌金a 、b 元和c元 ,则其数学期望值为( a + b + c)/3元;③若某人在赌博中以概率p 和q ( p ≥0 , q ≥0 , p + q = 1) 获得赌金a元、b元 ,则获得赌金的数学期望值为p*a + q*b 元。
https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhO74qA1hmsic3qmcFXqEGA8MQGu8P9DT4MzvOsCia1iaX5kRlYDTFPWS5ZmSibglw4icLy5joYrFyT3ib3w/640?wx_fmt=png不过,有点遗憾的是,惠更斯对概率论的讨论仅仅局限在掷筛子等赌博活动中,并没有将其扩展运用到其他概率事件里。
https://mmbiz.qpic.cn/mmbiz_jpg/pojyAtdhQhOEeuHka7EaaianiaPx89Gbs2hVJwg7e2TEN54Rbc2cOTb6ykibXNfCibwia3hmKMen8oEq1s3JSLM8ZEQ/640?wx_fmt=jpeg瑞士数学家雅各布·伯努利:没错,就是伯努利家族里最红的那个
直到1713年,雅各布·伯努利的代表作《猜度术》终于出版(此时,伯努利已经去世有8年了)。
在《猜度术》中,伯努利不仅对惠更斯的关于赌博中出现各种情况的概率进行了大量计算,还提出了著名的“大数定律”。伯努利大数定律:概率论历史上的第一个极限定理,指“当试验次数足够多时,事件发生的频率无穷接近于该事件发生的概率”。
大数定律自诞生开始,便产生了极其深远的影响,为后来的很多统计方法和理论的建立奠定了坚实的基础。
/模友:说好的正态分布呢!正太在哪里了??//超模君:来了来了。。。/
正态分布的发现
超模君说了怎么多,正态分布的发现者终于表示受不了,要自己出场了。。。
他就是法国数学家棣莫弗。https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhMwJhaMR7ictdGAnUe5iaiaLIicmllCaChuFWmJDUoBZLAibLHEOk9dkZfxdI0j1a49UIIbny7Dvs9iafVA/640?wx_fmt=png棣莫弗:终于到我出场了
虽然伯努利得出了“无限地连续进行试验,我们终能正确地计算任何事物的概率,并从偶然现象之中看到事物的秩序”这样的结论,但并没有表述出这种偶然现象中的秩序,而棣莫弗便是第一个将这种秩序表述出来的人。
其实,在伯努利《猜度术》出版之前,棣莫弗就对概率论进行了广泛且深入的研究,已于1711年在英国皇家学会的《哲学学报》上发表了《抽签的测量》,这就是早期概率论史上三大著作之一的《机遇论》的前身。早期概率论历史上的三部里程碑式的著作:伯努利的《猜度术》、棣莫弗的《机遇论》、拉普拉斯的《分析概率论》。
https://mmbiz.qpic.cn/mmbiz_gif/93L36SeS4s72taSs8XkVv1pPdzwicmot4Qv81C7KEs5rtNHAyHGAWBtUldJ9DeCFCxGzeSudAibMAvBY6OHv7LUA/640?wx_fmt=gif不过,比较搞笑的是,棣莫弗关于概率论的研究依然离不开赌博问题。。。
偶然的一天,一赌徒向棣莫弗提出了一个与赌博有关的问题。甲乙二人在赌场里赌博,他们获胜的概率分别是p和q=1−p,赌n局,如果甲赢的局数X>np,则甲就得付给赌场X−np元,否则就是乙付给赌场np−X元。问:赌场挣钱的数学期望是多少?
这是一个二项分布问题,可知答案是2npqb(n,p,np),其中b(n,p,np)为二项概率。
不过,这只是理论结果,而对于具体的n值(尤其是n值较大时),计算实际的期望值并不是一件容易的事,于是,棣莫弗决定找出一个更方便计算的近似公式。
只见棣莫弗直接令p=½,尝试攻破这一特定概率的近似公式,就这样几年过去了,在1733年,终于取得了重要进展。他结合斯特林公式https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhPiabPL8TyEkQ73viaktC5tawe3BR9jXykhnoJnsfkLvLsCPeu1m7wMs0lgnEicIia69A0vqSqHibz0TgQ/640?wx_fmt=png,进行了一系列研究,然后出现了神奇的一幕:
https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhPiabPL8TyEkQ73viaktC5tawtZt7UmK33icyMlhicSs4JGcWB0NPkGXUqeVuawO47oaibGmquib6NVEyVA/640?wx_fmt=png
https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhO74qA1hmsic3qmcFXqEGA8Mp4L39KkJkOKOK4dP8CRsDReiafMpkdJUiaA11Tl2C77rKQicyo2wPwtlA/640?wx_fmt=png正态分布的概率密度函数就这样出现了,由此可知,二项分布的极限分布就是正态分布。
当时,棣莫弗是瞥见了正态曲线的雏形的,而最后正态分布的主要功劳给了高斯(正态分布也称高斯分布),很大程度是因为棣莫弗不是一个统计学家,他当初的这项工作也没有得到重视,他也从来没有从统计学的角度上考虑过这个问题。。。
https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhPiabPL8TyEkQ73viaktC5tawB3ZtnKOVsODToLG8ibuncobSnjDFzXzhNml4O1p0kdnTbrOj8hxqQxw/640?wx_fmt=png
不过,棣莫弗虽然“无视”了正态分布(当时也还没叫正态分布),但这几年的研究也不是没有收获,概率论中的“首席定理”——中心极限定理就是他首次提出的。
接着,拉普拉斯在他发表的《分析概率论》对棣莫弗的结论进行了拓展(对于p≠½的情况的更多分析结果),人们称之为棣莫弗-拉普拉斯中心极限定理。棣莫佛-拉普拉斯(de Movire - Laplace)定理,即服从二项分布的随机变量序列的中心极限定理。它指出,参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。
https://mmbiz.qpic.cn/mmbiz_jpg/pojyAtdhQhNLyzoVP3MH4WbJxb0jjaI8we1wbhQc8als4yN7m6pbz3B33LgczUpsypqV3dREibuFyyXkxFKPGIA/640?wx_fmt=jpeg拉普拉斯:这里不可能没有我。
1780年,拉普拉斯建立了中心极限定理的一般形式,随后,中心极限定理又被其他数学家推广到不限于二项分布的其他任意分布,再后来,统计学家发现,一系列的重要统计量,当样本量 N 趋于无穷时, 其极限分布均有正态的形式。
https://mmbiz.qpic.cn/mmbiz_jpg/pojyAtdhQhP4DoicqpP05BTbYnxfX7HNHma3mBL2rW1fDcWC9qnrWKma8skOdBCclSicjSdz2MoK7Oia0nzNz6Vkw/640?wx_fmt=jpeg作为概率论的大牛,拉普拉斯表示既然来了,就不会轻易退场。于是,他开始捣鼓人们一直疑惑的随机误差(这在当时需要处理大量测量数据的天文学界是一个很棘手的问题)。
遗憾的是,研究了好几年,拉普拉斯仍然没法搞定误差分布的问题,尽管他已经假定了误差分布函数,但由于计算过于复杂只好放弃。https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhMBHe4FmK1tFWpUB2FWSL0gvCZmLsib2ibkQjbYc9Picsbx9VtADACrDBDAUaqjjLxQZNFBGtlS7MV4Q/640?wx_fmt=png拉普拉斯误差分布曲线
这时,终极大佬高斯姗姗来迟,大手一挥便解决了这个问题。。。。
https://mmbiz.qpic.cn/mmbiz_jpg/pojyAtdhQhMlXZ3cyIVj0fYkVjDGpepjSavqibMuYKBxYDaufvTA2uJdLae5KEygMqglXR4ibQNYuBmeicNEZfVSQ/640?wx_fmt=jpeg高斯:不好意思,我来晚了。
也许他天才的直觉准得有点过分了,正当别人费尽脑筋都想不出的时候,高斯有点鸡贼地选择将问题反过来想。
只见高斯提出了极大似然估计的思想,并猜想人们公认的“算术平均是不会错的估计”等价于对真值的极大似然估计,然后反过来寻找怎样的误差分布能使这一猜想成立。
与常人颠倒的思路竟然让高斯一路畅通无阻,很快,他便证明了在所有的概率密度函数中,使得猜想成立的只有以下一种情况:https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhMBHe4FmK1tFWpUB2FWSL0gvgtXlGUmFDaPgKerIxyvYIalETQkkzSpULk0o7PT4PvVNRtZMDtXbg/640?wx_fmt=pnghttps://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhMBHe4FmK1tFWpUB2FWSL0gzvWvF0k6iawAWHRJesAt7VVfrIsicXZic5YYibc8OPFrGjfPQD6Yl959Sg/640?wx_fmt=png
正态分布密度函数就这样被高斯推出来了,与此同时,高斯根据他的正态误差理论,确立了最小二乘法的概念。
有了高斯的认证,正态分布迅速活跃在误差分析中,人们可以轻松对误差大小的影响进行统计度量,由于高斯的这几项关键性工作,人们将正态分布命名为“高斯分布”。
正态分布的完善
虽然说,要成为一个好的数学家,你首先必须得是一个好的猜想家。尽管高斯得出的结论是正确的,但当初推导的思路确实有点“鸡生蛋,蛋生鸡”的嫌疑。(人们都说高斯是接受了神的旨意。)
于是,正态分布的理论完善就交给了其他数学家。
https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhO74qA1hmsic3qmcFXqEGA8Ml4fSl5M9qvhicY8FYUmZ2C73LB4LibvPnxnoRFrsbdeY7YNPJX1s4ghA/640?wx_fmt=png拉普拉斯看到了高斯发表的理论之后,惊奇地发现这个密度函数分明在自己之前的研究里出现过,并且认定这肯定不是巧合!
拉普拉斯马上将自己的中心极限定理与正态分布理论联系起来:如果将误差看成许多的微小量(称为“元误差”)叠加的总和,根据中心极限定理,随机误差便服从正态分布。
随着中心极限定理的不断完善,高斯的结论也得到了越来越多的理论支持,正态分布逐渐在误差分析中确立了地位,称霸于其他一切概率分布。https://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSJ3yxFDJo5ph4vViajNyjBn23qxB6MzZZl8paU2wd4LkBPHfZiaQmHt1pBibf5vacntDtPtBImwBhYtA/640?wx_fmt=jpeg正态误差态分布律
而关于它的命名,自它火了之后,各国人民都争先恐后帮它起名字:由于拉普拉斯是法国人,于是,法国人民称之为“拉普拉斯分布”;高斯是德国人,当时德国就喜欢叫它“高斯分布”;其他国家的人们呢,嗯,不知道站哪边,便直接叫它“拉普拉斯-高斯分布”。
https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhMBHe4FmK1tFWpUB2FWSL0gmMb36oXRibHlMvJZWBxibYUgzbkiaty31Sia9IvQ69Ewe49v9SQmFOq0Ww/640?wx_fmt=png俺明明叫正太!
正当人们吵得不可开交的时候,庞加莱站了出来,他建议改用正态分布这一中立名称,后来,统计学家卡尔·皮尔森也说了一句公道话,使得人们接受了正态分布这个名字:Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another “abnormal”.
https://mmbiz.qpic.cn/mmbiz_png/pojyAtdhQhO74qA1hmsic3qmcFXqEGA8M8nwZKwzN1IYBrfjZsvKdicia1MeGMP4vDm4EXjGaOQ7Qnhun0eXwibVeA/640?wx_fmt=png不过,高斯的名气实在太大了,高斯分布的名字并不是想去掉就去掉的,因此,现在数学界正态分布、高斯分布两个名字通用。
最后,超模君只想感叹一下,高斯的力量一如既往的强啊!
部分资料来源于《正态分布的前世今生》
页: [1]
查看完整版本: 关于正态分布,你不知道它诞生之路是多么“变态”