专业人士都在用的调研平台

理解数据:编辑和清理数据集

调研家SurveyPlus
标签: 缺省值 变量
2022-03-09

对收集而来的数据,我们需要进行编辑和清理,以保证数据的正确性和连续性,需要处理的有缺省值、超范围值,以及由于错误安排问题所导致的错误。

 

1.缺省值

如果一个回答是空白,那么这就是缺省值(missingvalue)。产生缺省值的原因可能各种各样——问题不适用于回答者,回答者可能不能回答或拒绝回答,抑或是访谈者忘记记录回答了。处理缺省值很重要,否则会影响整个数据集或对调研者和客户产生误导。一种方法是在问卷设计阶段就做好准备,给问题的回答选项中预留“不知道”“没答案”或“不愿回答”等选项。调研者应该事先商量好如何处理此种回答,以及如何进行编码。调研者也可以在问卷回答的最后阶段与回答者一同检查是否存在缺省值。

如果缺省值存在,编码可添加到允许其以缺省值形式存在的数据输入程序中。通常,有编码的数值会超出其变量的可能值。试想,由于某些原因,“生活与时代”调査的回答者并没有给出回答,或者访谈者没有询问或记录回答者对Q.3“你会如何描述你所居住的地方”的回答。这个问题的回答值或回答编码从1=“大城市”到5=“乡下农场”;你可以把“9”作为一个缺省值“没有回答”。如果你了解更多为何出现缺省值的细节信息,例如,“不合适”“拒绝回答”或“不知道”,并且这些回答不适用于问卷,你可以给这些回答以不同的缺省值编码,“不合适”可以是96,“拒绝回答”可以是97,“不知道”可以是98,“由于其他原因缺失”可以是99,还有其他处理缺省值的方法。一个极端的做法是整例删除,就是删除包含缺省值的任何个例。然而,这种方法会导致样本容量减小,可能导致偏见,因为有缺省值的样本可能不同于其他没有缺省值的样本。

一个比较温和的做法是在那些没有用缺省值的表或计算中成对删除这会影响数据的质量,特别是如果样本容量相对较小,或者有较多的缺省值。

处理缺省值的方法有给缺省值补上一个值,有以下两种方法:你可以先计算该组变量的平均值,然后以平均值补上缺省值;或者你可以依据回答者在该份问卷中的其他回答或与回答者类似的其他回答者的回答补上缺省值。用平均值补上缺省值意味着样本的分布不会改变。但通过补上缺省值的方式可能存在误差,毕竟有可能原回答者的回答存在极端值。

 

2.非连续、问题排序错误和超范围值

其他的数据编辑活动涉及解决由于非连续性回答、问题排序错误以及超出范围的非有效回答等问题。例如,如果在“生活与时代”调查的Q.2,回答者的答案是“没有”(他们没有在北爱尔兰之外的地方生活超过6个月),那么这个回答者就不应该回答Q.2a,而是应该直接跳到Q.3。只有那些回答是“有”的人才有资格回答Q.3,其他人都应该排除。如果一个回答者在Q.2中回答“没有”,接着回答了Q.2a,那么“跳过”规则就没有正确执行,Q.2和Q.2a的回答是不符合事实的。这种情况不应该岀现在这个调査中,因为这个调査是由数据获取程序自动执行的。这个程序使使用者(回答者或访谈者)能够修改不合适的回答,跳到合适的问题并能够拒绝超出数值的回答或编码。当数据以频数统计形式呈现并可使用时,在下一阶段进一步检査数据的精确性和连续性。例如,如果1100个被访者中有406个有过网上购物经历,那么是否有406个被访者回答了他们购买了什么物品这个问题?

 

3.变量运算

在检査完原始数据后,你可能会发现有些变量的格式不利于进一步的分析,因此改编变量值或在此基础上建立新的变量就成了必须。例如,你在询问关于假期目的地的选择问题时,收到的答案却是列着各种城镇和度假胜地的长长清单。因此,把这些回答分类归于地区、国家或大洲会更有用。如果一个变量是定距变量或定比变量,你就可以在原变量的基础上使用数学计算来创造新的变量。例如,你询问了关于每个月人们手机消费的平均值,为了更好地进行下一步分析,你可以把这个变量整合成每年平均消费值,如果这对于你的分析更有帮助的话;或者,你现在有两个变量值——家庭中成人和小孩的个数,但是你并没有家庭总人数变量的值,那么你就可以把前两个变量值加起来以得到这个变量值。

相关推荐

随时随地获取 调研家 观点

关注公众号

调研家,专业人士
都在用的调研平台

关注调研家公众号

随时随地了解问卷编辑、数据收集、数据分析干货分享

调研家,专业人士
都在用的调研平台

获取定制解决方案

《调研家服务协议》
已有账户 马上登录

提交成功

感谢您的申请,我们将在24小时内与您联系

知道了

调研家将为您提供

一对一专业服务,根据您的项目情况,为您定制专属解决方案

专业服务助您事半功倍
样本需求
项目定制
  • 请选择您的需求

  • 提交成功

    感谢您的申请,我们将在24小时内与您联系

    企微咨询顾问

    咨询电话

    188 2459 1379

    Copyright © 2023 SurveyPlus 瀚一数据科技(深圳)有限公司 粤ICP备18114013号 粤公网安备44030502004015号