统计显著性检验
统计显著性检验(Statistical Significance Testing)
什么是统计显著性检验
统计显著性检验是指用于检验在零假设为真的情况下出现某个结果或更极端结果的概率。
统计显著性检验的内容[1]
统计显著性检验的本质是统计显著性检验是一个系统的程序,用于判定基于样本的某项研究的结果是否支持针 对总体的某个理论或实践创新。这是比较笼统的解释。更为准确的理解是,统计显著性检验指以随机化(包括随机取样和随机分配)为前提、在零假设为真的情况下,根据给定的样本确定出现某个结果的概率的程序。
该定义涉及以下要素:
(1)统计显著性检验结果是概率描述,时常根据概率是否大于或小于某个水平而表现为二元对立;
(2)检验的基础是假定零假设为真;
(3)随机化(randomization)是使用显著性检验的基本前提;
(4)样本容量是关键因素,因为研究结果的统计显著性取决于它所依据的个案数。
在最简单的意义上,统计显著性检验用于检验在零假设为真的情况下出现某个结果或更极端结果的概率。显著性检验中要用到4对基本的概念:样本与总体,零假设与备择假设,显著性水平(水平)与显著性概率(p值),第一类错误与第二类错误。
统计显著性检验的不足及补充手段[1]
统计显著性检验仅用于发现在零假设前提下出现某个统计值或更极端值的概率,并以此为证据做出拒绝或不拒绝零假设的判断。它不能回答研究发现的实际意义等其他问题。因此,在研究中,仅仅依靠显著性检验结果做出决策是有危险的。本节在指出显著性检验不足的同时,建议研究中利用效应量(efect size)检验、统计效力检验、置信区间估计或重复试验等补充手段。
1.效应量检验。以t检验为例。统计显著性只能说明真正的参数值与零假设中的参数值有差异,却不能明示差异的实际意义。一个小的P值,比如0.O1,构成拒绝零假设的有力证据。但是,它绝不意味着在实际意义上有一个重要的发现。尤其在样本容量很大的情况下,即便点估计值(point estimate)接近零假设中的参数值,也有可能达到小的P值。从“显著性与重要性的混淆”节 检验的计算公式中可以看出,即使样本平均数 与零假设的参数值。很小,如果样本容量(n)很大,t统计量也会很大,极易达到统计上的显著性。统计显著性只表示有效应存在。在研究中,当研究结果具有统计上的显著意义时,建议利用总体效应量(population effect size,简称ES)来辅助判断结果的实际意义。效应量是对总体平均数差异的测量,有助于决定统计上具有显著性的差异是否具有实际意义或重要性。
2.统计效力。检验样本很大时,如果效应很小,统计显著性的结果可能只有理论意义,没有实际意义。样本很小时,即便效应很大,也有可能得不到统计显著性的结果。统计效力是在研究假设为真的情况下,某研究产生统计显著性结果的概率,即拒绝错误的零假设的概率。效力越大,犯第二类错误的概率就越小;效力越小,犯第二类错误的概率就越大。常用的参考规则是研究中统计的效力要达到0.80。统计效力的大小主要与效应量、样本容量和显著性水平等因素有关。在其他条件不变的情况下,效应越大,统计效力就越大;样本越大,统计效力就越大;显著性水平越高,统计效力就越大。
3.置信区间。除了统计效力之外,置信区间也是一种补充手段。置信区间和显著性检验从两个不同的方面描述同样的东西,具有互补性:显著性检验利用P值判断零假设中的某个参数值是否合理(plausible),置信区间则提供一系列可信的参数值。置
4.重复性试验。在一次试验中,我们不可能100%地确信某个假设为真或为假。在拒绝零假设时,我们会犯第一类型的错误,尽管我们能将错误率控制在0.05或0.01等水平上。另外,即便我们得到了显著性检验结果,那也未必就意味着是处理效应的结果,因为样本的取样(sampling)、分配(assignment)和样本量等都会影响试验结果。在接受错误的零假设时,我们会犯第二类错误。除非样本容量很大,犯第二类错误的概率通常比犯第一类错误的概率要高得多,因此,只依靠基于小样本的统计显著性检验来发现重要的科学结果,失败的可能性常常是很大的
参考文献
免责声明:本内容来源于第三方作者授权、网友推荐或互联网整理,旨在为广大用户提供学习与参考之用。所有文本和图片版权归原创网站或作者本人所有,其观点并不代表本站立场。如有任何版权侵犯或转载不当之情况,请您通过400-62-96871或关注我们的公众号与我们取得联系,我们将尽快进行相关处理与修改。感谢您的理解与支持!
请先 登录后发表评论 ~