最新消息: 大屏互动软件全新升级为 6.0 啦,启用了新的网址,还是永久免费,但有更多惊喜。点击立即体验

懂一点概率统计少一点大呼小叫

新闻 乐宝 188浏览 0评论

基本每所大学都开有一门课叫“概率论与数理统计”,从标题就可以看到概率与数学、统计的紧密联系。数学是解决概率问题的工具,我们在中学就学过概率,但掌握概率的计算方法并不代表真正理解了概率,日常生活不是百般刁难我们的排列组合题,大多数情况下导致人们判断失误的并不是复杂如排列组合的事情没算好,实际上,它们都是一些简单的问题,正因为过于简单,我们喜欢用直觉理解,再加上对概率性质的模糊认识,各种各样的偏见随之而来。

在充满不确定因素的复杂社会里更理性地生存,正“概率理念”,我认为是很有必要的。本文的第一部分讲了概率论的核心概念之——随机,第二部分说明了利用概率知识重新认识统计数据的一个角度,第三部分说的是我们在日常生活中对概率的误用。水平有限,故只是一点常识,既然都是常识为什么还要长篇大论,引用作家梁文道的一句话:“若觉可怪,乃因此为一个常识稀缺的时代。”[1]

希望能帮助大家重新认识概率与统计。

1.认识随机

随机,这个词好像人人都懂,小孩子之所以用抛硬币打赌、掷骰子玩飞行棋,是因为我们默认了每人得到硬币正反、骰子点数的机率一样,以此确保了游戏公平。

然而,“随机”却曾是困扰数学家、物理学家、哲学家了几个世纪的问题,科学家们很难接受世界的不确定性,他们认为世界是像钟表那样地机械有序运行,并且只要获得了足够多的信息,就存在一条规律必然可以推导出事物下一刻的状态。传统物理学有一则推论,很好的代表了他们对事物发展“必然性”的理解:即从大爆炸那一刻起,所有未来就已决定,理想状况下如果我们获得任一时刻宇宙包含的全部信息,就可以根据物理定律解出宇宙在所有时刻的状态。

事实当然是,我们不可能获得宇宙的全部信息,数学家亨利·庞加莱曾把这种对信息的“不可获得”归因为人的无知。这个观点认为,确定性是存在的,只是人太笨发现不了规律。然而量子力学却完全推翻了这个观点,物理学家在原子内部发现了随机性,宇宙的变化从一个确定的方程变成了一个概率分布。爱因斯坦对这项说法很不爽:“上帝怎么可能用掷骰子来决定下一秒宇宙的样子呢”。现在看来,这位科学大佬显然错了。

用有限的规律求解无限的随机,我们有可能一点点地点亮未知,但永远不可能消灭它。无知是主观的,它是观察者的一种属性。而随机性,如果它真实存在的话,应当是事物本身的本质。[2]

2.统计结果没告诉你的[3]

随机,应用到统计学里,就形成了随机抽样的理念。n大小的简单随机样本(SRS,simple random sample),其原则使得总体任意一组n个个体,中选的概率都相同。但真实世界的统计不可能把上一句话做到百分百,因为样本估计总体的这个动作会产生随机抽样误差 (random sampling error),不可避免。这个误差值是多少呢?显然大部分统计结果没有告诉我们。

学术机构或者政府统计部门通常比较靠谱。美国每月失业率是根据当前人口调查的约50000住户得来的,同时公布误差界限margin of error)±0.2%及置信水平(Confidence level)90%。这个±0.2%就是随机抽样误差的值,一般我们看到的失业率是个确定的数字比如10%,更精确地表达则是9.8%~10.2%,此时置信水平90%的意思为:不断重复抽样n次,这n次抽样中得出的n个失业率区间有九成能抓到真值(真正的失业率)。不仅于此,正规的调查机构还会回答其它许多问题:总体是什么?样本如何选取?样本大小?回应率多少?联系受访者的方式?问题的问法?这些都是影响统计结果的重要因素,现实情况甚至更复杂。这也可能是统计自成一门学科的原因之一吧。

统计这么麻烦,小的调查机构可就不大乐意按部就班。网络新闻、地方电视台常常懒得理会统计的一兜子事儿,他们只要给个结果再弄个看似逻辑严密的阐释,哗众取宠就可以了,事实倒是证明这个手段十分奏效。除了迎合大众好奇心的小道新闻,一些利益团体更需要我们小心提防,假如有哪个广告商宣布什么民意调查结果,别看了,多半是忽悠你去买他们的产品呢。

3.大数定律

先做一个快速判断题:把一枚硬币掷骰六次,以下那个结果更为可能发生?

正反正反反正 正正正反反反

你选的哪个?大部分人觉得“正反正反反正”比较可能发生,因为“正正正反反反”看起来太凑巧了。其实只要稍微想想就知道,两者的概率都是(1/2)^6。但感觉上我们经常认为前者比较“随机”,后者“不太随机”。这其实是一个赌徒谬误(gambler‘s fallacy)。

我们心中的“赌徒”看问题的方法是:由于某事发生了很多次,因此接下来不太可能发生;或者由于某事很久没发生,因此接下来很可能会发生。[4]

号码6竟然已经连续出现了10期,那下次6估计就不大可能再出现了。赌徒的逻辑是,既然彩票号码是随机的,6都出现这么多次了,那么下次6就不该出现以便和其它数字搞一搞平衡。按照“搞一搞平衡”原理,出现正以后硬币需要搞下平衡,所以下次就是反,连续三个正和连续三个反这种情况不符合“搞一搞平衡”原理,也就是不合“常理”,所以是个特例,直觉上特例总得是个小概率事件。最终赌徒得出结论,“正正正反反反”发生的概率较低。

稍微用脚趾头想想都知道上面一大段有多么荒谬。这也是赌博的时候经常让赌徒停不下来的一个心理因素,尤其是对输钱的赌徒,他们认为既然事件的结果完全是靠运气,那运气的分布应该是好坏的概率一样,所以总认为自己下一次就会赢回来,很多时候就这样越输越多,倾家荡产。[5]

赌徒谬误的产生是因为错误地理解了“大数定律”

大数定律(law of large numbers):如果结果为数值的随机现象独立地重复许多次,实际观测到的结果其平均值会趋近期望值。

如果你进行了非常非常多次的抽奖或者抛硬币,数字、正反出现的次数差异将变得微不足道。换句话说,如果你的统计样本不够大,你就什么也说明不了。诺贝尔经济学奖得主丹尼尔·卡尼曼把这个现象戏称为“小数法则”(law of small numbers)。赌徒谬误的谬处,就在于认为随机=均匀,而忽略了“大数”前提。

大数定律解释了为什么赌场里我们是在赌,而经营赌场根本就不是靠赌运赚钱。他们会事先在规则上占取根本察觉不到的少许优势,算好期望值。也许你赌了几次感觉和东家胜负的概率是一半一半,赌场赚不了几个钱,但只要花心思保证足够多的客流量、吸引足够多数量的赌注,大数定律就能该保证赌场赚钱,因为对赌场来说“少许优势”会越来越明显。现在一些室内游戏厅的以游戏币代替软妹币的赌博机,用的也是这个原理。

高度暴露于石棉是危险的,但低度暴露风险却很低。一位老师如果在含有石棉的暖气管的学校里工作三十年,他因石棉而得癌症的概率差不多是0.000015,开车的人一辈子中,会死于车祸的概率大约是0.015,而这个比开车风险小1000倍的石棉却引起了大规模的清运,美国联邦政府还要求每个学校必须检查石棉并公布结果。当风险不在掌控之中时(暴露于石棉导致癌症),我们通常过分担忧,而对完全由自己把控的事物(开车)似乎很有信心。这也是我们的直觉对概率运作的普遍弱点:将很低的风险高估,较高的风险低估。[3]

小题大做,大题小做。

如果哪天新闻上报道有个5人的持枪杀人团伙在全国流窜,不分男女老少地突突,行动极其隐秘,手段残忍无比。此时我劝你不要这样:

” data-rawwidth=”380″ data-rawheight=”488″ class=”content_image lazy” width=”380″ data-actualsrc=”https://www.hixianchang.com/wp-content/uploads/2018/20180720/T183896.jpg”>

做个理性的现代人,懂点概率与统计的常识,是非常有用的。

至少你不至于吓得头屁分离。

注释:

[1]梁文道,《常识》(2009.1)一书的介绍词,原文是:“本书所集,卑之无甚高论,多为常识而已。若觉可怪,是因为此乃一个常识稀缺的时代。”

[2]詹姆斯·格雷克,《信息简史》(2013.10),323

[3]戴维·S·穆尔,《统计学的世界》(2003.11):21-72,412

[4]维基百科,原文是:“赌徒谬误(The Gambler’s Fallacy)亦称为蒙地卡罗谬误(The Monte Carlo Fallacy),是一种概率谬误,主张由于某事发生了很多次,因此接下来不太可能发生;或者由于某事很久没发生,因此接下来很可能会发生。”

[5]奚恺元,《别做正常的傻瓜》(2006.8),161

分享:

转载请注明:好现场 » 懂一点概率统计少一点大呼小叫

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址