北京计算机培训分享八大最佳数据中心开源挖掘工具

数据挖掘,又称数据挖掘和数据挖掘。它是KDD(Knowledge-discovery in databases)中的一个步骤,是对大量数据进行挖掘和分析并从中提取信息的过程。其中一些应用包括市场细分-例如识别从特定品牌购买特定产品的客户的特征,欺诈检测-识别可能导致在线欺诈的交易模式等等。本文中,北京计算机培训整理了八个最好的开源数据挖掘工具。

1、Weka

WEKA作为一个开放的数据挖掘平台,在新的交互界面上聚集了大量可以承担数据挖掘任务的机器学习算法,包括数据预处理、分类、回归、聚类、关联规则和可视化。

2、RapidMiner

RapidMiner是世界领先的数据挖掘解决方案,在很大程度上采用了先进的技术。它的数据挖掘任务涉及的范围很广,包括各种数据艺术,可以简化数据挖掘过程的设计和评估。

3、橙色

Orange是一个基于组件的数据挖掘和机器学习软件套件。其功能是一个友好、强大、快速、多功能的可视化编程前端,用于浏览数据分析和可视化。Python绑定了脚本开发的基础。它包含一系列完整的数据预处理组件,并提供数据核算、转换、建模、模型评估和探索功能。它采用C++和Python开发,其图形库采用跨平台Qt框架开发。

4、Knime

KNIME(KonstanzInformationMiner)是一个用户友好的、智能的和发展良好的开源平台,用于数据集成、数据处理、数据分析和数据探索。

5、工程

JHepWork是一套完整的面向对象的科学数据分析框架。Jython宏用于显示一维和二维直方图的数据。该程序包括许多工具,可用于与二维和三维科学图形进行交互。

6、阿帕奇马胡特

ApacheMahout是ApacheSoftwareFoundation(ASF)开发的一个全新的开源项目。它的主要目标是创建一些可扩展的机器学习算法,供开发者在Apache的许可下自由使用。该项目已经发展到第二年,目前只有一个公开版本。Mahout包含许多实现,包括聚类、分类、CP和进化程序。此外,通过使用ApacheHadoop库,Mahout可以有效地扩展到云中。

埃尔基

elki(index-structures支持的gkdd应用程序开发环境)主要用于聚类和发现离群点。ELKI是一个类似weka的数据挖掘平台,用java编写,有GUI图形界面。可用于发现异常值。