指南汇编:数据分析离不开统计知识的辅助。其中,区间估计是指根据点估计得出相对合理的值范围。这种方法目前使用较少,但学习有助于理解其他概念,如家庭测试。本文作者总结了区间估计的概念和操作方法等,一起看一下。
你好,我是爱学习的熊妹妹。
很多小伙伴想知道:要做数据分析,到底需要知道多少统计学?小熊很努力地做懒汉攻略,不说复杂的理论,直接谈论实际操作,希望能帮助大家。
要搞统计学,第一个概念要从区间估计开始,这是后续多种方法的基础。
听一下。听到“区间估计”这个名字,很多小伙伴都会打问号。
今天的分享从这里开始。
首先,什么是“估计”?
“估计”是指用采样的数据估计整个数据情况。这样做的原因是,在很多情况下,收集全部数据太难了!例如,生产真空包装鸡腿的企业要想检查质量,就必须拆开包装。那鸡腿不能再卖了。这是多么大的损失啊!所以要取样。
如果用样本数据直接表示整个数据,则称为“点估计”。
一般的点估计指标有两个。
平均:例如,样品鸡腿的平均重量为150克。比率:例如鸡腿抽样的卫生合格率为99.9%。但是直接这样做有问题。也就是说,样本对象不同,点估计值经常不同。为了解决这个问题,出现了区间估计方法。
二、什么是“区间估计”?
通俗地说,区间估计是在点估计的基础上给出合理的价值范围。
例如:采样的鸡腿平均重量为150克,是一个点的估计值。采样的鸡腿平均重量在145克到155克之间,是间隔估计。
其中145到155称为置信区间。这符合人们的一般理解:东西很难100%准确,范围也可以理解。
但是这个范围有多可靠?人们用信任水平来衡量。也就是说,“我们有多确信,真实值在置信区间内。”通常以(1-)表示。如果采取0.05,信任水平为0.95,即95%的把握。
信任区间与信任水平相关联,完整的表达是:“我们有95%的信心。鸡腿的平均重量在145 ~ 155克之间。”
有小伙伴的话很好奇。为什么信任水平不是100%!一般来说,如果信任水平太高,信任区间会变得非常大,从而得出正确但无用的结论。
例如:我们百分百有信心。小熊的脸价值在负(-10分)和未约川线(10分)之间。这是正确的废话。
另一个例子是,我们有95%的信心。小熊是8分的美女(10分满分)。这个结论有用得多吗!
三、区间估计方法
做区间需要四个步骤,不想看原理的小伙伴死记硬背就行了。
第一步:检查样本对象和要计算的指标(检查是平均还是比率)。第二步:采集样本,获得样本数据(平均、比率、方差、样本量)。第三步:给定的信任水平(1-值);步骤4:利用Z分布求出相应的置信区间范围。计算公式如下:
只需插入公式中的参数。标准偏差、Z /t值、平均值等参数具有各种计算工具中立即可用的公式。
四、两个简单的例子
某公司主要为中老年人开发产品,用户购买时不需要提供身份信息,因此无法知道用户年龄。
为了确认大象顾客的年龄是否符合“中老年”类别,必须取样。范例资料如下:在90%的信任水平上计算大象客户的年龄置信区间(见下图)。
再看看比率的例子。一家公司想知道用户满意度,但相当一部分用户在商品评价中没有评分,因此使用调查方法从网站上选出了300名未评分的用户,其中182人表示满意,在95%的信任水平下,寻求了用户满意度的信任区间(下)。
s://p3-sign.toutiaoimg.com/large/pgc-image/SiadahxB6YsXrO?_iz=31825&from=ar;x-expires=1705687549&x-signature=JFciuM3p%2FXd3C4cG44AVdZYe7ZQ%3D&index=3" width="640" height="230"/>看到这个结果,反应快的小伙伴已经马上意识到:这种计算能用来验证业务有没有撒谎!比如上例中,如果业务方说“用户满意率肯定在70%以上”这样谎言就被戳穿了。
实际上,也确实是如此操作的。区间估计的方法是做假设检验的基础理论,所以小伙们都得掌握一下。
五、这么神奇的方法,为啥平时不咋用?
答:现代企业采集数据的手段丰富了很多,特别是互联网企业,用户的注册、点击、互动数据是全体收集的。因此想了解用户消费情况,完全可以针对全体统计消费率、消费金额等指标。就不需要抽样了,因此用得很少。
但这不意味着运营、产品、销售的同学就不需要掌握这个概念。因为这两年ABtest大行其道,导致抽样实验的方法又形成一轮文艺复兴。
先掌握区间估计的方法,对后边理解单样本/双样本/多样本假设检验,有巨大帮助。这一点,讲到后边大家都理解了。
以上就是今天的分享,谢谢大家。
作者:码工小熊,微信公众号:码工小熊
本文由 @码工小熊 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议