原文作者:Pradeep Menon
原文链接:
译者:TalkingData 张永超
昨天的文章中,我们讨论了统计学习的关键概念——参数模型、训练与测试、方差与偏差等等,今天我们再来看一看机器学习的基石概念之一假设检验
著名的物理学家爱德华·特勒曾经引用过:
“A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty, until found effective.”
假设检验的应用在数据科学中占主导地位,它是简化和结构的必备之选。就像犯罪小说的故事一样,基于数据的假设检验,将从一个新颖的建议引向一个有效的命题。
概念
假设是指用有限的证据作出的想法,它是进一步调查分析的起点。该概念非常简单,但是在实际应用中很强大。在日常生活中,通常按照如下7个步骤进行:
- 做出假设;
- 初始状态设定;
- 确定替代的问题;
- 设置验收标准;
- 进行基于事实的测试;
- 评估结果。评估是否支持初始状态?确定结果不是偶然的?
- 达到以下结论之一:拒绝原来的位置以支持替代位置或拒绝原始位置。
以一个故事来进一步解释假设检验的概念。霍尔马维克是冰岛西部的一个小镇,这个小镇有其独特之处是,它被称为巫术博物馆。即使现在,那里也有人声称是巫师。伊西尔德和甘道夫就是这样的人。
他们声称自己具有千里眼的超能力,能够透视任何物体,于是一些研究人员想要验证他们的能力,让他们玩一种叫做透视纸牌的游戏。
该游戏的规则如下:
- 伊西尔德和甘道夫随机从四副扑克牌中选择10张纸牌;
- 他们必须确认每张纸牌属于那副牌;
- 该测试每次重复10次。
在进行此次测试验证之前,已经对正常人进行了测试,得到的结论是正常人能够预测正确的平均次数在6次左右。这个就是本次假设检验的基础,而本次假设检验的目的是统计确定伊西尔德和甘道夫是否是巫师。
第一步:做出假设
不同种类的假设检验需要做出不同的假设。而假设与数据的分布、采样以及线性有关。一些常见的假设如下:
- 分布: 每种数据都会遵循特定的分布,需要掌握数据中的规律。许多自然发生的数据点如股票市场数据、人体重量和高度、在酒吧喝酒的人的薪水等等都近似正态分布。正态分布只是意味着很多观测值都在中间位置,较少的观察值大于或小于中间值。中间值也称为中位数。
- 采样: 假设为测试采样的数据是随机选择的,没有偏见。
对于上述透视纸牌游戏,以下假设是正确的:
- 在透视卡牌游戏中,所选纸牌的分布将是正态分布的。这是真的,因为这些纸牌是随机选择的。随机选择纸牌意味着将被挑选的十张纸牌中的每一张都具有被选择用于测试的相同概率。
- 在该问题中,纸牌没有偏见。
第二步:空假设
空假设是假设验证的初始情况,也就是当下的状态,是拒绝或者失败的立场,在整个假设验证的过程中处于需要验证和测试的位置。
对于上述纸牌游戏来说,空假设如下:
伊西尔德/甘道夫并没有千里眼的能力。
第三步:备用假设
备用假设和空假设正好是相反的。如果统计学获得的证据正好表明备选假设是有效的,那么空假设就是被拒绝的。
对于上述纸牌游戏,备用假设如下:
伊西尔德/甘道夫具有千里眼的能力。
第四步:设置验收标准
空假设和备用假设定义好之后,初始位置为空假设。现在需要设定一个阈值,我们知道一个普通人,即不是巫师的人会在10次中得到正确的六次。如果伊西尔德和甘道夫能够在一次测试中预测超过六张正确的纸牌,那么有更多的证据表明他们确实可能是巫师。有一种度量评估方法叫做t-统计,t-统计估计值远离备选假设越多越合理。
假设检验结果可能会出错。有四种可能的情况:
- 测试发现,伊西尔德和甘道夫具有千里眼能力,他们是名巫师;
- 测试发现,伊西尔德和甘道夫没有千里眼能力,他们不是巫师;
- 测试发现,伊西尔德和甘道夫具有千里眼能力,他们不是巫师;
- 测试发现,伊西尔德和甘道夫没有千里眼能力,他们是名巫师。
- 测试的结果可能显示结论1和结论2是正确的,结论3和结论4是无效的。
如果结论3属实,这样会导致空假设失效,属于一种误报,此类情况也称为Ⅰ型错误;
如果结论3无效,这样会是的空假设属实,属于一种错误的否定,此类情况称为Ⅱ型错误。
类型所有的统计验证,假设验证也必须处理不确定性,也就是必须处理概率,而概率并没有绝对的。
对于概率来说,需要设定概率层级,以便确定发生I型错误的机会,这个水平被称为显着性水平,使用α表示它。 α越低意味着测试越严格。相对较高的α意味着测试不是那么严格。 α的值是根据假设检验的性质设定的。典型值为0.001,0.05或0.1。
如果所观察到的结果仅仅是偶然的呢?如果这只是一个巧合呢?如果他们在测试进行的那一天刚好幸运呢?这种不确定性需要得到度量,假设检验有一个衡量这个不确定性的指标,p值是该度量。
p值表示为概率。这意味着它的值在0和1之间。p值是在假设为真的假设下偶然观察到的t统计量的概率。
对于透视纸牌游戏,决定如果伊西尔德可以正确猜测超过8张牌,那么备选假设是合理的。他可能确实是一位千里眼。 t统计量是8。
作为一名千里眼人是没有生命危险的。没有人处于危险之中。显着性水平设定为0.05。 α是0.05。
第五步:进行测试
通过重复十次的测试和验证,得到了一些结果。假设统计引擎最终得到如下的结果:
伊西尔德:
- t-统计:8
- P值:0.1
甘道夫:
- t-统计:9
- P值:0.01
第六步:评估结果
概率(p值)和显着性水平之间的比较产生以下结果:
对于伊西尔德来说:
- t统计量为8,这意味着,他平均预测了八张牌,比正常人预测的要高。
- p值是0.1,这意味着观察到的t统计数据归因于偶然的概率是10%。 p值很高。
- 设定的显着性水平(α)是0.05,转化为5%。
- p值大于设定的显着性水平,即10%> 5%。
第七步:得出结论
测试已结束,指标是已知的。谁是真正的巫师呢?
对于伊西尔德:p值大于设定的显着性水平(10%> 5%)。尽管平均而言,他已经预测了八张牌;从统计上,结论如下:
- 伊西尔德的结论:没有实质证据反对空假设,空假设未被拒绝。
对于甘道夫:平均而言,他已经预测了九张牌。,p值低于设定的显着性水平(1%<5%);从统计上,结论如下:
- 甘道夫的结论:有很好的证据反对空假设,空假设被拒绝,备选假设被接受。
最终,伊西尔德被否认,甘道夫很高兴。然而,伊西尔德也并不那个伤心,测试并没有确定他不是一位具有千里眼的巫师,空假设没有被验证是错误的,也没有证据表明备选假设是不成立的,这意味着没有足够的证据来确定空假设是无效的,在现实中,这样的情况普遍存在。
结语
假设检验是机器学习的基石概念之一,很多评估方法使用假设检验来评估模型的鲁棒性。在我们浏览本系列时,我们将深入探索其构造。