Hello,大家好。
这里是壹脑云科研圈,我是大胡同学~
作为一名合格的科研狗,我们在投稿时总是千担心万祈祷,希望编辑、审稿人手下留情。
比如非常受心理人心仪的《心理学报》,投稿时的自检报告就有14条大问,可谓是一名科研狗的研究自省。
话说回来,尽管问题之多,咱也得老老实实的逐条回答。
其中,样本量是绕不过也躲不开的大关,直接关乎研究结论的科学性,因此就有这么一条
请写出计划的样本量, 实际的样本量。如果二者有差别, 请写出理由。以往心理学研究中普遍存在样本量不足导致的低统计功效(power)问题, 我们建议在论文的方法部分解释您计算及认定样本量的依据。
应该以有一定依据的效果量(effect size)、期望的功效来确定样本量, 并报告计算用软件或程序。
今天,我们就来讲讲这样本量大关怎么过。
我们首先来看看期刊论文中关于样本量的描述是怎么样的。
第一张图片是计划样本量和实际样本量一致;第二张图片是实际样本量高于计划样本量。
顾名思义,计划样本量就是在研究开始前计划收集的样本量,实际样本量则为在实际实施过程中收集到的可用于计算的样本量,这受到研究环境、研究过程等的多重影响。
此外,在研究过程中脱落的或数据不符合要求的不计算在实际样本量中。如果实际样本量小于计划样本量则会使研究的统计效能降低,影响研究的科学性。
这就是题中所提到的以往心理学研究中普遍存在样本量不足导致的低统计功效(power)问题,因此期刊建议在论文的方法部分解释您计算及认定样本量的依据。
应该以有一定依据的效果量(effect size)、期望的功效来确定样本量, 并报告计算用软件或程序。
那既然知道了为什么样本量很重要,那如何确定样本量,下面就着这两个问题展开来描述:对于确定样本量来说有哪些关键参数、如何去确定样本量。
1
相关概念
在心理学研究中,通常是通过假设检验的方法进行研究设计和数据分析,这个过程涉及包含了四个非常关键的参数,分别为:α(显著性水平)、1-β(即power,统计功效)、effect size(效应量)和sample size(样本量)。
其中样本量由前三个参数来进行计算估计。
1.样本量(sample size):指总体中抽取的样本元素的总个数,样本量大小是选择检验统计量的一个要素。
2.显著性水平(Significance level):α,一般取0.01或0.05。是指当原假设为正确时人们却把它拒绝了的概率或风险。
它是公认的小概率事件的概率值,必须在每一次统计检验之前确定,通常取α=0.05或α=0.01。这表明,当作出接受原假设的决定时,其正确的可能性(概率)为95%或99%。
3.统计功效(power):1-β,也称检验效能,指能够正确的拒绝一个错误的假设的能力。统计功效与期刊关注的样本量的关系为样本容量越大,样本均属分布的标准误差越小,统计功效越大。
4.效应量(effect size):是反应处理效应大小的度量,效应量越大,被比较的两总体之间的重叠程度越小,则处理(干预)的效应越明显。
如果效应量太小,意味着处理即使达到了显著水平,也缺乏实用价值。效应量与样本量几乎无关。
那么在这其中,α和β又分别代表了什么,它们的取值会影响研究的科学性吗?这就是我们常说的一类错误和二类错误。
小编还记得上学的时候,这两类错误就经常是容易犯迷糊的地方,那今天就以最通俗、最直接的方式带大家认识一下它们!
2
一类错误与二类错误
通俗来解释原假设H0和备择假设H1以及对应的一类错误和二类错误。原假设:研究者想收集证据予以反对的假设;备择假设:研究者想收集证据予以支持的假设。
例:H0-A和B是一样的人;H1-A和B是不一样的人。
这时候会犯两种错误:
第一,如果A和B真的是一样的人,但研究证明A和B真的是不一样的人,这是犯了一类错误(弃真);
第二,如果A和B真的是不一样的人,但你的研究证明A和B是一样的人,则犯了二类错误(取伪)。所以说,两类错误越小,结果就越准确。
关键参数也知道了,两类错误也学会了,那对于开头的那个问题,要怎么回答呢?
要么证明我的样本量比能够得到良好统计效能的样本量更大,要么证明根据我的样本量能达到的统计功效是OK的,这也就是先验分析和事后分析。
3
先验分析与事后分析
在实证研究之前根据确定的显著性水平、统计功效和效应量来计算所需的样本量,这是先验分析(prior power analysis),在研究中最常使用。在实证研究后,根据实验中的样本量、显著性水平和效应量来计算统计功效(post-hoc power analysis)。
在研究中,以上两种较为常用,另外还有折中(compromise)、标准(criterion)和敏感性(sensitivity)三种方法,在文章中比较少见。
到这儿,计算及认定样本量的依据这个问题就很好的解决啦,那关于计算用的软件或程序则在往期推送中有十分详细的介绍。
如心理学研究中十分常用的G*power软件,它是由德国杜塞尔多夫大学几位老师开发的,专门用于统计功效(包括样本量)计算的免费统计软件,在心理学领域有着很高的声誉和认可度,其使用见往期G.Power教程|样本量估计。
参考文献:
[1]贾筱倩, & 宋晓蕾. 追踪手势对视空间学习的增强作用.
[2]来自《心理学报》论文自检报告
作者 | 大胡同学
排版 | 空壳子
校对 | 昆昆、喵君姐姐