元分析(Meta-Analysis)
目录 |
元分析是一种定量分析手段。它运用一些测量和统计分析技术,总结和评价已有的研究。元分析过程中,最重要的是判定研究结果,即对研究结果进行统计显著性水平检验和效果量的测定。
第一次使用“元分析”这个概念的人是美国学者格拉斯,他在1976年美国教育研究联合会(American Education Research Association)的发言致辞中首次提出元分析概念。格拉斯认为,元分析是一种对分析的分析,具有以下主要特点:
(1)元分析是一种定量分析方法,它不是对原始数据的统计,而是对统计结果的再统计;
(2)元分析应该包含不同质量的研究;
(3)元分析寻求一个综合的结论。
元分析可以成为跨研究评判结果的一件有力工具。即使许多研究者已经乐意接受元分析的概念了,可还有一些人基于若干理由而质疑它的有用性。本节探讨元分析的一些缺点,并为克服这些缺点而提出一些建设性的解决方法。
评估被评论的研究的质量 在一家期刊里可见的研究之质量取决于期刊的编辑政策。有些期刊有严格的发表标准,而另一些的发表标准就不太严格。这就意味着发表的研究之质量在不同的期刊间会有很大差别。
元分析面临的一个问题是如何处理参差不齐的研究质量。例如,在一家非同侪评审的期刊上发表的文章应该与在一家需同侪评审的期刊上发表的文章一视同仁吗?遗憾的是对这个问题没有简单的答案。Rosenthal(1984)建议按照质量来对文章加权。
应该沿什么维度来对研究加权呢?这毫无一致意见。需一非同侪评审的维度虽然是可以的,但是你采用这个维度时也要当心,因为一家期刊是不是同侪评审的,这并不是发表的研究之质量的可靠指标。在一个新的领域里用新方法做的研究有时会被同侪评审的期刊拒绝,尽管这家期刊在方法学上是健全的,也是高质量的。类似地,在同侪评审的期刊发表的作品虽然有助于你确信该研究的质量是高的,但不保证高质量。
可以依着而对研究加权的第二个维度是方法学上的健全性,而不考虑期刊的质量。Rosenthal(1984)提出让若干方法学专家对每项研究打质量分(可以用一个从0到l0的量表)。质量评定可以做两次:一次在单独读了方法部分之后;另一次是在读了方法和结果两部分之后(Rosenthal,1984)。这样的评定是要检查评分者间信度的,然后才用来在元分析里对每一项研究的贡献大小进行加权。
用不同的方法合并与比较研究 对元分析的常见批评是难以理解怎么可能对材料、量器以及方法都广泛不同的诸研究做比较。这个问题通称为“苹果与桔子之争”(Glass,1978)。
对元分析的这种批评虽常见,却无效。Rosenthal(1984)和Glass(1978)指出,比较不同的研究结果与在一个普通实验里对异质被试作平均化是毫无不同的。如果你愿意接受对被试作平均化,那也就能接受对异质研究作平均化(Glass,1978;Rosenthal,1984)。
关键问题不是应不应该在异质研究之间做平均,而毋宁说是不同的研究方法会不会带来不同的效应规模。因此Rosenthal指出,当某一被试变量成了研究中的一个问题时,你经常会“胶着”在这个被试变量上以确定它是如何与出现的差异相关联的。同样的,如果方法学的差异显得与研究结果有关联,那么在一项元分析里,研究也要停下来考察方法学(Rosenthal,1984)。
实际问题 元分析的工作是一项艰巨的工作。对同一问题做实验,可以使用很不同的方法与统计技术。还有,某些研究也许没有提供必要的信息可做元分析。例如Roberts(1985)只能用38项研究来做他的态度一记忆关系的元分析。有些研究因为没提供足够的信息,所以得剔除掉。Robert也报告说,当一篇文章说F值小于1(文章里经常这样做)时,他就对F赋值以零。信息不足或不准确的问题(与文件柜问题相伴)会导致你的元分析里的研究样本没有代表性。诚然,偏差也许是小的,却也是存在的。
元分析的结果不同于传统述评的结果吗? 传统的述评产生的结果是不是与元分析的结果有质的不同?这的确是个问题。为回答这个问题,Cooper和Rosenthal(1980)直接比较了这两种方法。他们把研究生和教授随机分配于做元分析或做传统述评,材料是7篇文章,讲述被试性别对作业坚持性的影响。其中两篇研究认为女性比男性更有坚持性,而另5篇要么没有统计数据,要么显示没有显著效应。
这一研究的结果显示了使用元分析的参与者比使用传统方法的参与者更有可能得出性别对坚持性有影响的结论。另外,比之于做元分析的参与者,做传统述评的参与者认为性别对坚持性的影响小。总起来看,使用元分析的参与者有68%愿意断言性别对坚持性有影响,而只有27%使用传统方法的参与者有此倾向。用统计学的话来说,做元分析者比传统述评者更愿意拒绝性别无影响的虚无假设。因此使用元分析来评判研究会导致Ⅱ型决策错误的降低。(Cooper&Rosenthal,1980)。
Cooper&Rosenthal(1980)也报告说,元分析样组与传统述评样组在评判被述评研究的方法学上没有能力差别。还有,两个样组在对该领域的未来研究提出的建议方面也无差别。大部分的参与者认为该领域的研究应该继续下去。
最后,值得注意的是,使用元分析本身要求的统计学进路与对传统实验数据做统计分析的研究策略是一样的。当我们得到一个实验的结果时,我们不会只打量(“盯着”)数据,看看是否存在什么模式或关系。相反,在大多数情况下,我们用统计分析来评判关系是否存在。同样的,与其“盯着”诸研究而猜测可能的关系,还不如把一项统计分析应用于不同研究的结果,以见是否存在有意义的关系,这会更好。
元分析要具有可复制性,不仅应尽可能多地检验搜集来的研究样本,观察它们是否可以凸显出某种单项研究显现不出的潜藏规律,还应该清楚地描述自己是如何发现这些研究及如何对它们作分析的,以便他人进行评价。因此,元分析必须遵循详尽、严格的研究步骤。
1.确定研究目的
确定研究目的也就是组织研究框架。在收集研究之前,首先必须确定研究中想要探索的文献领域及将要包括的题目范围。元分析涵盖的题目有时很宽泛,但其核心必须界定清楚,而且应该建立一套挑选研究样本的“包含”与“排除”标准,这样可以帮助一起合作的研究者在面对同一群文献时能够运用同样的标准去查找或分析研究。
确定研究目的时,还需要充分理解自己所要分析的概念及使用的方法,就像确定实验研究中的自变量和因变量一样,确定所要研究的效果量及结果。
2.彻底的文献搜索
通过包括计算机网络在内的各种手段进行彻底的文献搜索,也就是研究样本的搜索,这对元分析的有效性非常重要,是综合研究得出结论的基础。对文献样本的收集可根据Rosenthal(1984)提出的大概分类标准:
书:包括作者的原著、几位作者共同合编的书及书的某些章节;
期刊:包括专业期刊、已出版发表的时事通讯、杂志及报纸;
论文:包括博士论文、硕士论文及学士论文;
未发表的研究:包括某些技术报告、学术报告、大会论文及将要发表的论文。
3.确定适合的研究样本
选择符合研究框架的研究样本是元分析的关键。要考虑多种问题,如它的研究设计,文章发表的时间,文章使用何种语言表述,研究中的样本大小及信息是否完整等等。
一般而言,尽可能选择最新的研究。对于未被选中的资料在分析中也要说明,这样就可以清楚明了地表明这些研究曾经发表过,并非经过一段时间将它们遗漏,只是没有作为设计的一部分包括进研究内。同时如果在研究中仅选择了以母语或英语表述的文章,就要说明这样做的理由。
另外,如果看到某一类研究在相似的题目上有多重报告,那么就选择其中一个信息较为完整的研究,使同一类型研究中的信息对元分析只贡献一次。尽量排除小样本的研究。如果选择了纵向跟踪研究,则要尽早决定跟踪研究的时限。
4.定义变量及对变量编码
在收集、选择了元分析的文献后,必须确定在元分析中要检验何种研究特征,这些特征就是元分析的变量。一般有以下四种变量:(1)识别背景特征的变量。这类变量包括入选研究样本的数量,研究样本的参考文献,对研究编码的人数(一般要求至少两人以上),研究资料的来源等。(2)识别样本特征的变量。这类变量包括被试的特征,如性别、年龄、民族、受教育水平、社会经济状况等。(3)识别研究特征的变量。这类变量包括研究的理论架构,研究设计,研究采用的工具,研究测量的效应类型以及其他。如果可能,这类变量可以帮助解释研究方法与结果之间的关系。(4)识别统计特征的变量。这类变量包括两类统计值,一个是表现平均值差异的效果量d,这需要关注每一个研究中的平均数、标准差和样本大小。另一个是表现关系的相关系数r,这需要关注每一个研究中的相关系数及相关的测量统计值。
在界定了用来测量研究的变量之后,还需要为每一个变量编码数据。对于每一个元分析而言,都应该有一套界定好的数据编码系统,不同的数字代表了每一类变量中不同的水平情况。如关于性别,若样本中仅有男性,编码系统可将其编码为1,若样本中仅有女性,则可编码为2,若既有男性又有女性,则可编码为3,如果样本未对性别作明确说明,则可用999(缺失值)进行编码。研究者需要对所有的分析变量进行编码。
5.研究数据的录入
元分析中搜集来的有关各样本研究特征的数据,需要录入一个相关的统计软件包进行分析。“元统计”软件包是由Rudner、Evartt和Emery规划设计的,其中包含有Glass、Hedges、Olkin、Schmidt和Hunter及其他学者的大量元分析理论,如Hedges的同质性检验,Rosenthal和Rubin的聚合显著性水平分析,以及近似随机化检验及效果量大小计算等等。该软件包还可以提供大量的程序来帮助完成数据录入、统计分析和图表分析,数据录入的形式既可以依据标准码的形式也可以依据SPSS的固定格式。
6.运用多种统计技术探索、展现数据
在进行复杂的元分析之前,应先对一些基础的数据特征进行分析,特别是录入数据后最好做一个简单频次分布图与散点图,来观察数据录入是否合理或者在所有欲分析的研究中是否有非常明显的异常数据存在。如果有,则可用软件包中提供的相应处理异常数据的方法来尽早地修正或远离它们。对于具体采用哪些元分析技术,要根据研究目的来决定。一般地,需要计算各研究样本的效果量及总效果量的大小,计算对总效果量估计的置信区间以及对各研究样本的同质性检验。面对不同质的样本要做敏感性分析,即根据研究质量的评定对研究样本分层,可划分为两层或多层,然后对每一层分别进行分析,同时对比其结果。
效果量的指标一般包括两类,一类用d表示,一类用r表示,即Pearson积差相关系数。在一些相关研究中,研究结果一般都会提供r,因此获取这一效果量比较方便。1985年Hedges和Olkin还提供了r和d这两个指标间的相互转换公式,即:。
(一)样本效果量
在元分析中,要对许多实验研究的结果进行定量综合,首先应计算出每一研究结果的效果量d,它是元分析中的重要指标,而且与传统统计分析方法中虚无假设的显著性检验(如:t、z、F检验等)有一定的联系。计算效果量是为了观察大批研究中所有效应的分布,如某种结论趋势或形态的确存在,效果量则会集中于一个方向。
第一步:计算效果量d
效果量d的计算公式为:,即实验组与控制组的平均数之差再除以控制组计算出的标准差所得的值。如果研究中没有均数和标准差,但提供了t值、z值或F值等显著性检验参数时,也可通过转换公式求出d值。
第二步:计算效应平均值
有了各研究结果的效果量d,还须计算综合条件下抽样样本效果大小的平均值万,但考虑到从各研究中所得效果量的精度不同,故可用每项研究的样本容量作为权数,求出它的加权平均数。Hedge在1982年提出的平均效果量无偏估计的方法,他认为当实验组和控制组的样本容量大于10,效果量小于115时,该加权方法非常有效和精确:,其中是指加权后的效果量,w是指元分析中每项研究的权重,其计算公式为:
,其中N指各研究样本的样本容量。
在评定平均效果量d时,Cohen(1992)认为小于0.20的效果量太小,大于0.80的效果量太大,所以应该考虑中等的效果量,如0.50左右。
第三步,总体效果量大小的估计得出抽样样本效果量大小的平均值后,还需要以样本效果大小的平均值来估计总体效果量的大小。中国学者朱莹和郭春彦研究发现,在以抽样样本效果大小的平均值作为总体效果大小的估计值时,抽样样本的数量和样本的容量都会对样本效果量大小产生影响,而其中抽样样本的数量影响更大一些,所以理想的条件是样本容量在70以上,且抽样样本数目在30以上进行元分析,结果会是准确、可靠和一致的,如果抽样样本数目在50以上,其结果将更为理想。
(二)效果量的齐性检验(homogeneity of effectsize)
齐性检验又称抽样样本效果大小的一致性分析,它是指所抽取的样本效果大小是否来自共同的总体,因而可以看作是效果量之间的同质性检验。齐性检验告诉我们,不是所有的研究结果都能被综合进同一元分析中,如果研究结果不齐性,调查者应考虑是否是由随机抽样误差所致,如果不是,则应该考虑将这些研究结果分成不同的子集合,使这些集合之间呈齐性关系,再对它们分别进行元分析。一般可采用聚类分析、方差分析、相关分析及回归分析等统计分析方法来探查研究特征与研究结果之间的关系。
Rosenthal和Rubin(1982)曾提出效果量齐性检验的方法:,其中指加权后的效应均值,d指每项研究结果的效果量,叫指每个效果量的权重。该x2值的自由度为k-1,k是指总抽样样本的数量。