北大青鸟java培训:大数据和数据挖掘有什么关系?

数据挖掘以数据库理论、机器学习、人工智能和现代统计学为基础,已经在很多领域得到应用。

涉及到很多算法,比如机器学习衍生的神经网络和决策树,基于统计学习理论的支持向量机,分类回归树,相关分析等。

数据挖掘的定义是从海量数据中发现有意义的模式或知识。

大数据有三个重要特征:数据量大、结构复杂、数据更新快。

由于web技术的发展,Web用户产生的数据自动保存,传感器不断收集数据,移动互联网的发展,数据自动收集和存储的速度不断加快,世界上的数据量不断扩大。数据的存储和计算超出了单台计算机(小型机和大型机)的能力,这对数据挖掘技术的实现提出了挑战(一般来说,数据挖掘的实现是基于一台小型机或大型机,也可以进行并行计算)。

Google提出了分布式存储文件系统,并发展了后来的云存储和云计算的概念。

大数据需要映射成小单元进行计算,然后将所有结果进行整合,也就是所谓的map-reduce算法框架。

单台计算机上的计算仍然需要采用一些数据挖掘技术,不同的是一些原有的数据挖掘技术可能不容易嵌入到map-reduce框架中,一些算法需要调整。

此外,大数据处理能力的提升也对统计学提出了新的挑战。

统计理论往往是基于样本的,但在大数据时代,可能得到的是总体,而不是全无回抽样。