原创作者:李子越
01 什么是配额抽样
配额抽样是常见的一种非概率抽样方法。配额,即配置数额的意思。通过预先设置受访样本在一些属性特征(如性别、年龄、受教育程度等)上所要达到的数量,配额抽样可以使受访样本在这些属性特征上的比例分布更接近研究总体,或者更符合研究需求。在网络调查中,由于概率抽样难以实现,配额抽样被广泛应用。而且,网络调查实现了配额抽样的自动化,使得配额抽样的操作更加简易可行。
图片来自网络
举一个配额抽样的简单例子:在一项调查中,我们希望最后完访的1000名受访者在性别上的分布与总人口一致。我们可以预先设置好男性和女性两组人群所分别需要达到的样本数(分别为510人和490人),然后按照这个数量进行数据收集。当任何一组人群达到了预设的数量,对该组人群的数据收集工作就完成了,我们不再接受符合这一类特征的新的受访者参与答题。
很多时候配额抽样会应用于更复杂的场景,比如需要对多个属性特征的比例分布进行控制,或者需要对多个属性特征进行交叉配额。以下是在两个属性特征间进行交叉配额的一个示例:在男女比例与总人口性别分布一致的基础上,我们还希望在男女两组人群中,18-40岁、40岁以上两组人群的比例均为1:1。这时我们需要对性别、年龄两个变量交叉配额,控制18-40岁男性、40岁以上男性、18-40岁女性、40岁以上女性的数量分别为255人,255人,245人,245人。
02配额抽样的历史
尽管配额抽样看似是网络调查的标配,然而配额抽样的历史却比网络调查要悠久得多。早在二十世纪三四十年代,配额抽样的方法在美国便已经被采用,在当时甚至比概率抽样更为主流。美国的很多市场调查公司和民调机构,如Gallup(盖洛普)、NORC(全国民意研究中心)等,采用的都是配额抽样的方法。不同的机构操作配额抽样的细节各有不同,但它们所遵循的基本原则是一致的,即预先设置并在执行过程中控制所收集的样本在一些重要的社会人口学特征上的分布比例(如地区分布、性别分布等),以期达到一个有总体代表性的样本。
与商业公司和民调机构相抗衡的是一些学者以及国家统计机构的研究人员,他们是概率抽样的支持者,认为配额抽样缺乏统计理论的基础。概率抽样的先驱Neyman在当时指出,“尽管在预先设置了配额的那些社会人口特征上,样本达到了理想的分布,但是在没有设置配额的变量上,样本的分布仍然不理想。”(Neyman 1934)
图片来自网络
尽管如此,概率抽样在当时并没有被产业界广泛接受,即便在学界中,很多的学者也是配额抽样的拥趸者。不过,民调机构在美国1948年总统选举的民意调查中遭遇了滑铁卢。当时最有影响力的三家民调机构,Gallup、Roper和Crossley,一致错误地预测了预测上选举的结果,而其中很重要的一个原因就是,三家机构所采用的配额抽样方法导致受访样本中经济状况优良的人群过多(没有预先在收入状况上设置配额,导致人群分布的失控)。此后,关于配额抽样和概率抽样的争论渐渐平息,概率抽样的方法开始被越来越多地使用。
03配额抽样的优势
尽管概率抽样渐渐成为抽样方法中的金标准,然而配额抽样的方法在当时依然被很多机构沿用:GSS(美国综合社会调查)一直到1977年才转用随机概率抽样;在欧洲,将随机抽样和配额抽样结合使用的做法也延续了好几十年。到今天,配额抽样更是随着网络调查的兴起而被更为广泛地使用。那么,是什么样的优势让配额抽样被偏爱呢?
简单易行是最直接的原因。相比概率抽样,配额抽样的简易性体现在两个方面:第一,使用配额抽样不再需要抽样框。抽样框是用于识别一个目标总体中所有要素的过程,在概率抽样中,抽样框的获得,以及抽样框的覆盖性、准确性均对调查设计提出了非常高的要求,甚至是不可能实现的要求。第二,配额抽样不要求访问指定的受访者。概率抽样要求必须访问抽样选中的人员,而不能使用其他人员进行替代,这给访问带来了很大的难度,并导致应答率的降低;配额抽样则允许使用在配额特征上一致的人员进行替代。
图片来自网络
配额抽样可以使样本的分布更为均衡或更符合总体特征,这也是其被青睐的重要原因。比如在网络调查中,如果不加以任何的配额控制,受访人群将集中于年轻的、受教育程度高的、居住在城市的人群。增加了配额控制会促使数据收集者主动去寻找那些年龄大的、受教育程度低的、居住在农村的群体,以确保数据也能够一定程度上反映这些难以访问到的人群的特征。
总的来说,配额抽样可以用成本更低、速度更快的方式,实现一个看似有总体代表性(或满足研究需求)的样本,对于无力承担高额经济成本或时间成本的机构来说,是退而求其次的一个理想选择。
04配额抽样的缺点
虽然有成本和可操作性上的优势,但从严格意义上来讲,配额抽样只能在表面上实现了对总体的代表性,这是配额抽样的结果用于推断总体特征时经常会出现偏差的主要原因。
我们通常把配额抽样和概率抽样中的分层抽样进行比较。二者看起来有一定的相似性,均是在一些关键的社会人口特征上,事先将受访人群进行分层(即分组),然后在每个层中选取特定数量的样本。二者的本质区别在于,在每一个层中,分层抽样遵循概率抽样的原则;而配额抽样则抽取的是方便样本——这导致在配额抽样中,样本的选择性偏差依然存在,在那些未控制配额的变量上,极有可能出现分布的失衡。
图片来自网络
配额抽样的难点正在于此:我们很难知道需要在多少变量上控制配额才算完整。举例来说,我们的研究问题是了解人们对一款产品的购买意愿。即便我们事先控制了不同性别、年龄、地区的人群的分布比例,实际的受访人群依然可能在其他属性特征上脱离控制:比如在实际调查的过程中,收入过低或收入过高的人群答题的可能性都很小,如果我们忽视了控制不同收入水平的人群的分布比例,最后的数据则更可能反映的是中等收入水平人群的购买意愿,我们观察到的仍然是有偏差的结果。但是,即便我们在收入水平上设置了配额,是不是还有其他更多的变量需要控制配额?无论我们多么仔细谨慎,最后都可能会有被我们忽略的需要控制配额的变量。
05总结
总的来说,配额抽样可以一定程度上实现更均衡的样本分布,考虑到成本、速度和可行性,配额抽样确实是很多调查项目相对来说最优的选择。结合上述配额抽样的优缺点,我们可以从以下方面来优化我们的实践:
1、我们首先需要意识到配额抽样在代表性上的不足,能够合理解读通过配额抽样获得的数据结果可能存在的偏差。
2、如果条件允许,可以将配额抽样与概率抽样相结合,以优化抽样设计。比如在多阶段抽样中,可以在前面的阶段采用概率抽样的方法,仅在末端抽样上采取配额抽样。
3、我们可以基于过往文献研究或经验,尽可能地在可能影响研究结论的关键变量上进行配额控制。比如在上文产品购买意愿的例子中,增加对不同收入水平人群的比例控制,可以帮助减少样本偏差。不过,配额控制的变量越多,调查成本和执行难度也会越高,研究者需要做出合理的权衡。
4、在使用样本数据推断总体特征时,我们必须小心地分析数据和推导结论。研究表明,合理的加权可以在一定程度上调整配额抽样的数据偏差(Berinsky 2006;Baker et al. 2013)
选择调研家SurveyPlus--专业调研SaaS平台,您可以快捷完成配额抽样设置,并在调研家社区样本库进行精准投放,完成高质量的数据收集。
参考文献:
[1] Kalton, G. (2014). 抽样调查方法简介. 格致出版社,上海人民出版社, p.140-144.
[2] Adam J. Berinsky (2006). American Public Opinion in the 1930s and 1940s: The Analysis of Quota-Controlled Sample Survey Data. Public Opinion Quarterly 70(4): 499–529.
[3] Baker R., J. Brick, N. Bates, M. Battaglia, M. Couper, J. Dever, and K. Gile, R. Tourangeau. (2013). Report of the AAPOR Task Force on Non-probability Sampling. AAPOR.
[4] Neyman, Jerzy. (1934). On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection. Journal of the Royal Statistical Society 97:558–625.
扫码关注调研家公众号,随时随地获取调研家观点
关注公众号
调研家将为您提供
一对一专业服务,根据您的项目情况,为您定制专属解决方案
Copyright © 2023 SurveyPlus 瀚一数据科技(深圳)有限公司 粤ICP备18114013号 粤公网安备44030502004015号