人话统计学概念:置信区间!

원본 동영상 콘텐츠동영상 펼치기
  • 了解置信区间的定义和计算方法。
  • 明白置信区间的实际意义以及如何解读结果。
  • 掌握置信水平与Z值的关系。
  • 避免常见的误解和表述错误。

大家好,今天我们来讲一个非常重要的常用统计学概念——置信区间。想象你看到一份用户调研报告,写着用户平均满意度为80并给出一个95%置信区间。那么这个置信区间到底什么意思?怎么算的?怎么解读?今天就带你彻底搞懂置信区间。

我们知道,当我们做实验、写报告时,光看均值是不够的,因为均值只告诉我们中心点在哪里,却没有说这个结果的可信度如何。这时候置信区间就派上用场了!它在均值的基础上提供了一个可信范围。

置信区间是一种常用的统计方法,可以用来估计不同类型的参数。我们今天就来介绍最常用的以总体标准差的均值为基础的置信区间。其他还有像比例的置信区间、差值的置信区间等不同参数的置信区间,公式长得不太一样,但结构都是一样的,都是由点估计加减一段误差范围构成的。

我们从公式入手来理解置信区间。我们常用它的英文缩写CI来表示。看到公式别害怕,这个结构其实很简单,就是均值加减一点误差范围。公式的起点就是这个 ( \bar{X} ),代表样本均值,加减部分代表你要从均值向上加和向下减,得到区间的上下限。

( \Sigma ) 就是标准差,反应离散程度;( N ) 是样本数量,其中最关键的这个 Z值 叫做 Z分数或者标准分。它的作用是在标准正态分布曲线上告诉我们从中心点出发要往左往右各走多少个标准差,才能选出我们想要的置信水平。

首先,这条我们熟悉的钟型曲线就是标准正态分布曲线,下方的面积是1,也就是100%,表示一个服从正态分布的变量所有取值的概率。接着,我们回忆一下置信水平的值——这代表我们希望这个区间有多大的把握能把真实值包含在内。比如我们常用的90%、95%、99%的置信水平,代表我们希望有这么多的把握能把真实值框住。

那么,在构建一个95%置信区间的时候,就是要划出中间的95%区域作为可信范围,而剩下的5%被认为是猜错的风险。这部分我们称之为Alpha,也就是显著性水平。而标准正态分布是对称的,所以5%分到两边,就是各一边的2.5%红色尾巴。

现在我们知道了公式里的 ( Z_{\frac{\alpha}{2}} ) 就是( Z_{0.025} ),我们只需要找到它对应的值是多少,带到公式里。我们可以用Excel公式软件计算,或者是手动查表都可以得到 ( Z_{0.025} ) 等于1.96。如果是用查表的方法,需要注意一下,标准正态分布表用的是累计概率去找的,所以是用我们想要的0.95这个区域加上左边红色区域的0.025,得到的0.975去查的对应的Z值。

那么这个1.96具体是什么意思呢?这是在说,在标准正态分布中,我们从中心点均值为起点往左右各走1.96个标准差的距离,就能宣布中间我们想要的95%的概率区域,从而构建出我们想要的95%置信区间。

现在我们理解了置信水平和Z值的对应关系:置信水平越高,Z值越大,置信区间也就越宽。这几个常用的置信水平对应的Z值建议直接记住。

理解了原理后,回到我们的案例,把关键参数的数值带入到公式计算就行了。假设100人的用户满意度调查问卷需要构建一个95%的置信区间,这些是已知条件:刚刚我们查表得到95%的置信度对应的Z值是1.96。现在我们把这些值带入回公式,计算上下限,最终得出我们的95%置信区间是76.08到83.92。

最后,我们还需要能够正确理解并表达这个区间。很多人会脱口而出“真实均值有95%的概率落在这个区间里”,这是典型错误的表述。我们要记住的是,总体均值是一个固定值,它就在那里不会动,因此这个真值不存在不确定性,没有概率这一说。

我们不能说这个真值有一定概率落入我们计算的区间。就好比你在玩飞镖,靶心是真实均值,你每次飞镖落点的位置就是一次抽样的样本均值,落点画个圈就是置信区间。那么你会说:“我有95%的信心这个圈会包含靶心”,或者是说:“如果我不断重复抽样,从长远来看,我画的这些圈里有95%的圈能把靶心圈进去。”但你不会说靶心会飘来飘去,有95%的概率落在我的圈里,因为真正有不确定性的是我们的抽样过程和从中计算出来的置信区间。

你可以描述这些区间能包含真值的可能性,或者是你对这个区间能包含真值的信息,但不能用于描述真值的落点概率。以下是几个正确的表述作为参考。

所以,知性区间的真正含义是:如果我们重复进行大量的抽样,每次都计算一个置信区间,那么大约有95%的区间会包含真实的总体均值。理解了真正含义就不难判断各种说法的正误了。

好了,以上就是置信区间的核心要点,恭喜你又掌握了一个重要概念!关注我,统计学不迷路!