普通人一天大约要接收30G的数据,但大部分人不知道如何正确地解读这些数据。MIT数据学专家在本书中讲述了如何破译每天接触到的数据,将复杂的问题变得更简单和直观。
了解你所看到的数字信息
1.明白基于错误样本得出结论将会导致的后果。样本是否能够代表总体?例如,那些接受问卷调查的人是谁?所选的数据是否基于你想要研究的关键结果,研究这个“样本”是如何影响分析结果的?
2.问自己:哪些数据能够最为恰当地回答所提出的问题?比如,“挑战者号”调查小组一度只研究O型环出问题的发射任务,因为研究结果显示这些事故在一定气温范围内时有发生,所以也许这个数据并不是能够解决问题的上佳之选。如果调查组把注意力集中在所有发射任务上,他们可能会发现O型环问题在温度较低的情况下更为频发。如果要回答一个有关人类行为的问题,你想了解哪些类型的人?或者,换个说法,受访者的答案是如何影响特定分析结果的?
3.在报纸上读到一则新发现或新研究报道时,问你自己:这个结论是研究了哪些数据得出的?受访者是谁,或者这项研究是基于何人开展的?当你看到“在一个非科学的调查中……”或“领先的”_________,等诸如此类的话,你可以将其视为危险信号。你可以问自己5岁的孩子下一任总统是谁,然后将这个“非科学的调查”结果发表。“领先的”这类词听起来不错,但很难量化(你可能会问“领先于什么?”)。
4.留心自陈式数据——问人们有关他们自己的职业,看什么电视节目,或行为如何等问题与观察并记录人们行为相比会简单很多,但自陈式数据并非总是最准确的。当你看到那些由研究对象提供的数据时,记住上面的话。
5.最后要记住,在很多统计工作中,对数据的一部分抽样或对数据的总体抽样并无好坏之分。抽样是一个强有力的工具,能让我们在研究总体不可行(或并不推荐这么去做)的时候了解到情况。你不要被误导,认为一定要研究所有数据才行。事实上,给数据抽取一个样本会非常有用。在有些情况下,研究数据的子集所得出结论的确会非常有意义而且非常合适。在其他的一些情况下,我们所研究的结论是由我们分析特定数据组所得出的。所以研究数据的一部分还是全部并不重要,解读结果的方式以及结果的意义才是关键所在。
如何成熟对待数据总和、平均值、离群值
有没有做好准备使用数据总和、平均值、离群值来做更好的决定?这儿有5件事,你现在就能做:
第一,了解什么是概括统计,什么不是。很多人觉得因为概括统计能够反映一组数据,那它就能够反映出数据的一切。其实并非如此。概括统计仅仅是一个标准,仅仅从一个维度衡量数据组。就像我们看到的红色州和蓝色州的例子,概括统计会掩盖基本数据的不同点。
第二,理解所呈现的是哪一种平均——是平均值,是中位数,还是众数。大多数人听到了“平均”两字,会认为讲的是平均值,但并非总是这样。有三种平均,而且各不相同。其中有一些更容易产生偏离。比如,基于平均值,世界上平均每人有少于两条手臂。(大多数人有两条手臂,但有些人只有一条,有些人没有手臂,因此平均值就被拉下来了,假定只有非常少的人有超过两条手臂。)当有人说到了平均,你要知道自己讨论的到底是哪个概念。
第三,试问“什么的平均数?”因为平均值里兼有多个数据值,每个数据值都会影响到最终结果。这便是你可以运用所有在这本书中学习到知识的时候。数据是否体现了样本?你是在看平均数的平均数吗,每一个平均数是否都有自己的特性?除了这些问题,还有很多问题需要问。
第四,看是否所有数据都被平等对待。有些平均数只是加权平均数,在这种平均数的计算过程中,有些数据被赋予了更大的权重。比如,有些选举计票使用了加权取平均数,以此来反映到达投票年龄的成年人的真实人数。如果使用正确的话,加权取平均数是一个可行的统计学工具,但是你必须知道加权是否存在以及加权的方式,从而让自己成为成熟的数据接收者。
第五,辨别离群值,并理解离群值给平均数带来的影响。有些离群值是数据组中完全有效的组成部分。其他时候,应当排除极端数值以得出你所问问题的正确答案。常言道,一粒老鼠屎坏了一锅粥。并非每个离群值都是老鼠屎——但你必须注意,离群值会使结论发生偏离。
如何成熟地应对关联性和因果性
现在,对关联性和因果性之间的差别有了较好的理解,我们在接收有关统计学关系的数据的时候,还有几点要谨记于心:
1.问你自己,这篇新发表的文章或研究展示了什么。文章中的确用了“因果”关系这个字眼了吗?不少时候,标题或文章中可能会暗示因果关系,但如果你深入研究,会发现大多数实际的研究只是在讨论某种关联性。
2.在理解统计学分析结果的时候,退一步,用常识思考一下——这样的关系从直觉看来对不对?为什么吃烤奶酪可以提高性生活质量?聪明人用苹果手机这种说法能不能说得通?尽管统计学常常可以得出出人意料的结论,但不要把一切孤立起来看待,不要抛弃自己的直觉。
3.如果你看到了两者之间的关系,问自己:会不会有其他的因素导致了我所观察到的结论?在理解两者关系的时候,是不是有其他确实非常重要的遗漏变量。
4.时刻当心反向因果关系。找到统计学上的关联性并不能表示事情就是按照那个顺序排列的。聪明人会晚睡吗?或者人们晚睡正是因为他们聪明?不要小看反馈循环——X影响了Y,Y同时又影响了X(如聪明人晚睡,而晚睡又给了人们更多时间让自己变得聪明,而人们变聪明了,又可以晚睡了……)
5.最后,对于科学家来说,证明因果关系也是一件非常需要技术含量的事。对于那些据称是因果关系,尤其可能存在潜在的遗漏变量的情况,要特别留心。
了解自己所看到的数据是否真的都有用。
仅因为自己被数据包围,并不表示你就要使用这些数据在生活中做决定。下面有5件你可以立即着手去做的事,以此了解自己所看到的数据是否真的都有用。
1.确定所看到的结果是否随机出现。作为一个成熟的数据接收者,常常需要在观察到的结果中排除那些随机出现的。你也许接触了5个喜欢吃汉堡的男性,但以这个样本来判断所有男性中有百分之几喜欢吃汉堡,这个样本可能就太小了。也许你遇到的这5个人,是世界上唯一喜欢吃汉堡的人群。在许多情况下,判断结果是否随机需要一个基线,以此来比较你所得出的结果。
2.要了解,许多研究发现其实是基于或然性的。一个具有“显著性差异”的研究发现,也仅仅表明结论有95%的可能性落在置信区间内。仔细研究P值可以让你了解结论有多少可能性并非仅仅是随机出现的——很多情况下我们会得出可以确信的结论,但要记住,我们只是在衡量或然性而已。
3.要知道,你在新闻标题中看到的数据常常是范围内的一个值。不论表述为误差范围(投票中的加/减)还是置信区间,研究发现通常只是一个范围内的估计值。如果一篇报纸上的文章说你最喜爱的候选人得票数为42%,那真实范围可能要加上或减去几个百分点。如果一份科学研究发现一种名字很好听的“益智”食品(包含鱼、浆果、绿色蔬菜)可能延缓阿尔茨海默病病情恶化的速度,置信区间能够提供其作用效果的范围。
4.哪怕得出了显著性差异的效应,也要看一下效应量。如果你在大洋里游泳,你可能会遭到鲨鱼攻击,但这种危险的概率很小。Discovery.