数据挖掘

调研家SurveyPlus

标签：数据仓库整理数据数据挖掘

2021-10-09

数据仓库整理数据数据挖掘

数据挖掘
数据库和数据仓库创建过程中的数据非常庞大一太字节和艾字节，有数百万的行数和成百上千的变量。然而直到不久以前，当数据库和数据仓库中所含信息的潜在价值被识别出时，就产生了数据联结与整合、数据整理等问题，重要的是，从数据中提取出有意义的东西。缺少合适的工具来探索和分析如此庞大的数据集意味着如下东西将很少用到：标准计算技术不能足够快速和全面地处理分析大量的数据。这就是数据挖掘技术的来源。例如，数据挖掘软件能够处理动态数据库，这种数据库有一连串来自运营领域的新数据不断加入进来——这些数据来自支付卡的交易处理或者电子销售点的扫描仪。

数据挖掘，有时也称为数据库中的知识发现（KDD）,是通过自动化技术、并行和多个并行计算技术、大规模集群计算和网格计算技术，将对决策者有用的信息和知识从非常大的数据库中开釆和萃取出来的过程。一些在数据挖掘中应用的分析技术就类似于那些数据分析中的标准和多变量数据分析。一个数据挖掘程序能够操纵数据，整合变量，并允许使用者选择数据库中的要素或对部分进行分析；它能提供基本的描述性统计，寻找变量之间的关联和关系并进行聚类分析。数据挖掘与其他数据分析技术的不同之处在于，它可以处理和分析的数据量，以及可以发现不能被标准分析技术检测到的模式和关系。通过使用并行计算技术，它可以高速地、即刻产生查询或搜索的答案。数据挖掘系统可以在一组并行处理器之间划分工作负载，使数据流被同时并行处理。如果数据库结构以一个特定的方式构建，处理速度可以进一步提高，例如，如果它被分割或“分区”为更小的单位或数据包；数据挖掘程序将在每个分区并行工作。
5.7.1数据挖掘方法
有两种数据挖掘方法：验证和发现。在验证方法中，你已经知道行为模式或变量之间的关系——你提出一个假设，以及你要通过数据验证假设。另一方面，如果你对模式的概念不清楚，并且你希望从已有的海量数据中发现隐藏的价值，你可以采用发现探索的方法。你釆用数据挖掘程序搜索和探索数据库以便找到有关的模式和关系。计算程序搜索关于模式和关系的数据库是通过以下方式实现的：了解数据和学习数据库中的应用规则，识别所有要素如何与其他要素相关联，识别网络数据中存在着什么。挖掘隐喻(miningmetaphor)是很好的方式，在数据挖掘中它通常是必要的，因为在找到有价值的材料之前,要在数据挖掘中筛选大量的糟粕。数据库可以在个体层面进行分析——每次交易和每个个体客户的层面，并且处于总体层面上，因为数据库是动态的——来自运营领域的数据基于规则被添加到数据库中，信息总是及时的。

示例：数据挖掘技术
・归纳；
・学习分类规则；
・聚类分析和市场细分；
・分析变化；
・寻找异常；
・探索相关性网络或神经网络。

文章来源于《市场调研实务（原书第4版）》，作者是[英]伊冯娜·麦吉温(Yvonne McGivern)。