数据整合
技术发展意味着可以通过对包含不同来源的数据库中的数据进行合并,包括调查数据和消费者固定样本组数据,并对不同调研的结论进行整合,构建一个关于市场和/或消费者的更具体的画面。
数据整合的目的是得到无法从个别来源获取的理解(Leventhal,1997;Macfarlane,2003)。一方面是可观测数据,这些数据是关于实际行为和人们做什么——这些数据来源于家庭事务委员会、电子销售点扫描仪、付款交易、网站活动监视器等(存储在数据库和数据仓库的数据);另一方面是关于态度和意见的数据,别人怎么想,他们经历过什么,以及来自调查报告的他们的行为。每种类型的数据都告诉我们一些消费者和消费活动的信息,并且每种类型都让我们了解消费者世界。尽管这是研究人员和他们客户的兴趣所在,但你也可以理解为什么要将这些数据结合在一起。
1. 数据融合和建模
根据贝克(2007)的观点,数据整合技术可以分为两种主要类型:数据融合与模型建造。数据融合技术依赖于被调研者在多个数据集的公共变量中形成统计匹配。换句话说,这个过程取决于某个数据集中能够匹配的单个记录能与另一个数据集中的记录进行比较,这种比较通常以人口统计学或人口地理学为依据。这个观点可表述为,从人物XI那里收集的关于态度或购买行为的数据,可以与从人物X2(X2拥有类似于XI的人口统计学或地理细分特征)那里收集的关于媒体使用方面的数据相结合,包含数据记录融合(XI加上X2)的态度或行为以及媒体的使用,被假设为是同一个人。由于这种方法的有效运转依赖于共同变量的有效性,比如人口统计资料或产品购买,以及这些变量以相同的方式定义,因此它们是测量同一个对象;又因为以相同的方式进行编码,因此分析程序使它们代表同样的对象。这显然对调研设计阶段有所启发,特别是数据收集工具的设计。变量数据采集开始之前,如果你知道两组数据可能会被合并,那么识别和定义常见的变量数据是很重要的。
数据整合的第二种方法是使用建模技术。这些工作试图通过将一个数据集归因到另一个数据集,并归因变量进行整合。这种方法充分利用回归、多重逻辑回归、AID、CHAID和CR&T,以及人工智能技术(Baker,2007)o在选择使用哪种技术方面,有两个关键标准:哪一个能最好地预测变量整合,以及针对数据使用该技术将变量整合时的难易程度。
整合来自不同数据源的数据可能会很困难、费时、昂贵且充满问题。很可能的情况是,当然你不知道两组数据可以合并,如果你知道,你可以在开始收集数据前定义变量。数据库管理和实时数据收集(通常归入知识管理或商业智能的标题下)的领域,并不总是与市场调研的领域重叠。即使是共同变量,仅当这些共同变量足以在任何两个变量x与r之间创建真的关联时,数据整合才能产生有意义的、有用的数据(Baker,2007),如果是这种情况,你所使用的整合方法必须是“完美”的,也就是说,数据库中的被调研者符合所有标准。
数据整合常用于不同的调査之间,尽管有时会从顾客数据库中提取出来某个样本或来自数据库的变量被用于调查,但是调查数据的整合与来自数据库的数据缺少共性,因此要创建一组共同的变量。
2. 数据联结
数据联结是一种数据集在特定个体层面上的形式。它是联结来自某个来源的个人数据到被认为是来自同一个体另一来源的个人数据的过程,这在医疗和人口健康调研(见 Brook etaL, 2008,以澳大利亚西部为例)与政府数据间很普遍。例如,英国就业及退休保障部提供的个体综合信息来自英国皇家税务与海关总署,这些信息以“就业和养老金纵向研究”的形式进行记录(http://www.dwp.gov.uk/docs/dwp-your-personal-infbrmation .pdf)。 正如其他形式的数据整合一样,其目的是为提高合并后的数据记录的有效性。
文章来源于《市场调研实务(原书第4版)》,作者是[英]伊冯娜·麦吉温(Yvonne McGivern)。
扫码关注调研家公众号,随时随地获取调研家观点
关注公众号
调研家将为您提供
一对一专业服务,根据您的项目情况,为您定制专属解决方案
Copyright © 2023 SurveyPlus 瀚一数据科技(深圳)有限公司 粤ICP备18114013号
粤公网安备44030502004015号