情境题的应答质量及其与认知能力的关系

调研家SurveyPlus

标签：调研情景题应答

2021-08-27

调研情景题应答

原创 | 吴琼（北京大学中国社会科学调查中心副研究员）

责编 | 胡婧炜

情境题回顾

问卷调查中的一些主观测评题目，如满意度、自评健康、自评社会地位、幸福感等，容易受到受访者的评价标准的影响，出现自我评价与客观情况不相符的情况，如客观来看更健康的人对自己健康的主观评价反而更低。这最终会导致主观测评题所获得的数据结果产生误差，难以测量真实的客观水平。

一些研究通过情境题（anchoring vignette）来测量受访者的评价标准，基于此进行数据的校正。具体来说，情境题给受访者简要描述一些与调查主题相关的假设性情境，让他们根据情境内容进行打分。以“中国家庭追踪调查”的健康情境题为例，受访者在评估了自己的健康状况后，需进一步对以下两种情境中的人物的健康状况打分：

孙军在走路、跑步、活动四肢上毫无问题。他每周慢跑2次，每次跑5公里。他记不得最近一次感到身体疼痛是什么时候，因为最近一年里他都从未感到过疼痛。即使在体力劳动或者锻炼后，他也不曾感到任何身体疼痛。你认为，孙军的健康状况如何？

王丽走200米的路毫无困难，但走完一公里或爬完几层楼后，会觉得累。她的日常活动没有问题，比如从市场上买完菜拎回家。她每月都有一次头痛，吃药之后会有所缓解。头痛时，她能继续做日常工作。你认为，王丽的健康状况如何？

尽管使用情境题来调整测量偏差的方法已被用在国内外多个大型调查中，但情境题本身是否也存在测量误差呢？尤其针对中国人群的大型调查中的情境题的数据质量如何？

情境题质量的评估标准

传统意义上评估量表质量的信度和效度的概念并不能很好的与情境题契合，但情境题的特殊设计使得研究者可以使用应答一致性作为衡量情境题应答质量的一个指标。研究者将受访者看成是一个随机因子，利用混合效应模型计算出每位受访者在每道情境题上的预测得分，再将其与真实值进行比较得出残差项，残差项的平方则作为测量应答一致性的指标（Saueret al. 2011）。残差项数值越大，应答一致性越低。我们可以将基于这种方法计算出来的应答一致性当作是情境题的信度估计。

除此之外，排序合理性也可以作为衡量情境题应答质量的一个指标（Wand, King, &Lau, 2011）。一般每组情境题中都包含两道或更多的题，这些题在客观条件上有较明显的差别，排序合理性即观察受访者对这些题的打分能否正确反映这些差别。这个指标在一定程度上反映出了情境题的效度。

应答一致性和排序合理性这两个指标反映了情境题质量的两个不同方面：排序合理性关注每组情境题内部不同情境的得分的相对位置是否正确，而不关注具体的得分；而由残差平方衡量的应答一致性则关注具体得分的相对距离。排序合理性指标的数值比较直观，而且在跨调查间具有直观的可比性；而残差平方的计算涉及到具体得分，更受具体选项的影响，其数值在跨调查间可能不具备直接的可比性。

三大数据库的情境题的数据质量评估

基于上述两个评估标准，我和张沛康（吴琼、张沛康, 2019）对“中国家庭追踪调查”（CFPS）、“中国健康与养老追踪调查”（CHARLS）、“国际学生评价项目”（PISA）3个大型抽样调查数据集中的10类情境题的数据质量进行了评估。3个数据集中的情境题涉及健康、教育和社会地位，其具体的使用情况如表1所示。

我们对应答一致性的计算方法如下：

对于每一组情境题，我们先构建一个如方程（ 1 ）的混合效应模型，其中受访者( j )是随机效应部分，不同的情境题( i )被设置为固定效应( Vi )，每组题中共包含k个情境题。V1-Vk为一组虚拟变量，当该等式表示第i个情境题时，Vi=1，其他虚拟变量均为0。

基于这个模型我们可以计算出每位受访者对每道情境题的估计值，然后将这个估计值与实际值进行比较，计算其残差，应答（不）一致性由残差的平方来衡量。

对于排序状况，我们以调查数据中每组情境题下各题的平均分的高低来定义情境题打分的正确排序。以前文提到的孙军、王丽的健康情境题为例，从数据中两道题的平均值来看，孙军的客观健康状况优于王丽。如果受访者对孙军王丽二人的打分排序与此一致，我们判定其为合理应答；如果与此相反，则为乱序打分；如果受访者对二者的打分相等，则为无区分打分。当一组情境题中含有三道或三道以上题目时，只要有任意两道题出现乱序现象我们就将其划分为乱序打分，只有所有两两组合的打分均相等时我们才将其划分为无区分打分。

表2展示了3个调查中每组情境题的乱序率和无区分率。可以看出，每个调查的每组情境题都有比例不小的乱序率和无区分率，且各组情境题之间差异巨大：譬如乱序率从CFPS“健康状况”题组的2.73%到CHARLS“睡眠”题组的30.31%；无区分率从PISA“班级管理”题组的3.11%到CHARLS“认知”题组的22.67%。表2的最后一列是衡量应答一致性的残差平方在每组情境题中各道题的均值。每组情境题由三道小题组成的CHARLS和PISA的残差平方均值在0.39到0.53之间，而每组情境题仅由两道小题组成的CFPS的残差平方均值较大。

认知能力与情境题数据质量的关系

受访者在答题的过程中需要经历理解题目、回忆、判断和形成答案等环节。受访者只有具备与问卷中的问题相匹配的认知能力时，才有可能提供高质量的回答。情境题过长的题干对受访者的工作记忆要求较高，同时第三方评价这样一种模式也可能让受访者觉得相对陌生，因此相比一般的调查问题，情境题的答题任务更难，对受访者认知能力的要求更高。那么，受访者的认知能力是否与情境题的应答质量具有相关性呢？

我们使用受教育程度和基于认知测试获得的受访者的认知水平两个标准来衡量受访者认知能力。通过多项logit模型对情境题排序状况的三种类型（正确、无明显区分、乱序）进行参数估计的结果显示，在大部分的情况下，情境题的排序合理性与受访者的受教育水平以及认知水平呈现显著的正相关性。受访者受教育水平越高、认知水平越高，其出现乱序、无区分打分的风险越低，排序合理性越高（具体数据结果参见吴琼、张沛康,2019）。

我们同时评估了认知能力对情境题应答一致性的影响。数据结果同样显示，对于大部分情境题组来说，情境题的应答一致性与受访者的受教育程度和认知水平呈现正相关关系。受访者的受教育程度或认知水平越高，其回答的情境题的残差平方越小，即应答的一致性越高（具体数据结果参见吴琼、张沛康,2019）。

总结

总的来说，我们的结论如下:

3个调查中10组情境题的应答存在着不同程度的乱序率和无区分率，情境题的应答质量在不同调查的不同情境题之间存在差异性。
虽然我们的分析涉及到3个针对不同年龄层次的调查，情境题测量的内容也有很大差别，但我们却发现了跨调查、跨内容的一致性：无论是以排序合理性还是应答一致性作为判断标准，受教育程度和认知水平对情境题应答质量的总体影响都呈现出一致的趋势：在大部分情况下，受教育程度越高，认知水平越高，受访者的情境题应答质量越好。

【参考文献】

吴琼，张沛康. 问卷调查中情境题的应答质量及其与认知功能的关系. 统计研究，2019, 36（5）: 45-53.Sauer, C.G., Auspurg, K., Hinz, T., and Liebig, S. “The Application of Factorial Surveys in General Population Samples: The Effects of Respondent Age and Education on Response Times and Response Consistency.” Survey Research Methods, 5.3 (2011): 89-102.

Wand, J., King, G., and Lau, O. “Anchors: Software for Anchoring Vignette Data.” Journal of Statistical Software 42.03(2011):1-25.