大数据学习路线是什么?

主要分为七个阶段:入门知识→ Java基础→ Scala基础→ Hadoop技术模块→ Hadoop项目实战→ Spark技术模块→大数据项目实战。

第一阶段:学习基础知识。

这部分主要针对初学者,需要掌握基础的数据库知识才能学习。MySQL是一个DBMS(数据库管理系统),也是最流行的关系数据库管理系统(关系数据库是基于关系数据库模型的数据库,借助集合代数等概念和方法对数据库中的数据进行处理)。

MongoDB是IT行业非常流行的非关系数据库(NoSQL),其灵活的数据存储方式受到当前IT从业者的青睐。

Redis是一个开放源代码、支持网络、基于内存和键值对存储的数据库。两者都了解是非常必要的。

1,Linux基础介绍(新版)

2.Vim编辑器

3.Git实践课程

4、MySQL基础课程

5.MongoDB基础教程

6.Redis基础教程?

第二阶段:Java基础

Java是目前应用最广泛的编程语言,它有很多特点,特别适合作为大数据应用的开发语言。

Java语言有两个特点:功能强大和易于使用。跨平台应用能力比C和C++更好用,更容易上手。同时,它还具有简单性、面向对象性、分布式、健壮性、安全性、平台独立性和可移植性、多线程和动态性等特点。最重要的一点是Hadoop是用Java写的。

1,Java编程语言(新版本)

2.Java的高级设计模式

3.J2SE核心发展实战

4.JDK核心API

5.JDBC入门教程

6.Java 8新特性指南

第三阶段:Scala基金会

Scala是一种多范式编程语言,其初衷是融合面向对象编程和函数式编程的特点。Scala运行在Java平台(Java虚拟机)上,兼容现有的Java程序,因此Scala可以很好地与基于JVM的大数据相关系统集成。

1,Scala开发教程

2.Scala专题课程-案例类和模式匹配

3、Scala教程——隐式转换和隐式参数

4.Scala教程-抽象成员

5.Scala特殊教程-提取器

6.Scala开发21点游戏。

第4阶段:Hadoop技术模块

Hadoop是一个开源软件框架,支持数据密集型分布式应用,在Apache 2.0的许可协议下发布。它可以构建大规模的数据仓库,存储、处理、分析和统计PB级的数据。你可以选择编程语言,但是Hadoop一定是大数据的必备。

1,Hadoop入门高级课程

2.Hadoop部署和管理

3、HBASE教程

4.Hadoop分布式文件系统-导入和导出数据

5.使用Flume收集数据。

第五阶段:Hadoop项目实战

当然,学完理论之后,还要进行实战。Hadoop项目实战有助于加深对内容的理解,锻炼实践能力。

1,Hadoop图形处理- 《hadoop应用框架》

阶段6:火花技术模块

Spark和Hadoop都是大数据框架。Hadoop提供了Spark没有的特性,比如分布式文件系统,Spark为那些需要的数据集提供实时内存处理。所以学习Spark也是非常必要的。

1、火花

2.x快速入门教程

2.Spark大数据动手实验

3.学习基于Spark的GraphX图形计算框架。

4.学习基于Spark的数据框架的基本概念。

5.基于Spark的数据框架高级应用技巧。

6.基于Spark的流媒体可以快速上手。

7.基于Spark的SQL快速入门

8.基于Spark的机器学习库MLlib的使用

9.基于Spark的SparkR可以快速上手。

10,流式实时日志分析系统- 《Spark最佳实践》

11.用Spark和D3.js分析飞行大数据

第七阶段:大数据项目实战

最后阶段,我们提供一个大数据实践项目,是对常用技能的系统化应用,比如使用常用的机器学习进行建模、分析和操作,这是成为大数据工程师过程中的重要一步。

1,Ebay网上拍卖数据分析?

2.流式实时日志分析系统——《Spark最佳实践》

3.大数据带你发现打车秘籍。

4.推特数据的情感分析

5.使用Spark分析流量日志。

6.星火流量计算电商产品关注度

7.Spark模式挖掘-FPGrowth算法。

扩展数据:

大数据技术的具体内容:

分布式存储计算架构(强烈推荐Hadoop)

分布式编程(包括Apache Pig或Hive)

分布式文件系统(如Google GFS)

多种存储模型,主要包括文档、图形、键值和时间序列(如BigTable、Apollo、?DynamoDB等。)

数据收集架构(如Kinesis、Kafla)

集成开发环境(如R-Studio)

程序开发辅助工具(例如大量第三方开发辅助工具)

调度协调架构工具(如Apache Aurora)

机器学习(常用的阿帕奇看象人或H2O)

托管管理(例如Apache Hadoop基准测试)

安全管理(常用网关)

大数据系统部署(可以看到Apache Ambari)

搜索引擎架构(?学习或企业建议使用Lucene搜索引擎)

各种数据库的发展(MySQL/Memcached)

商业智能(强烈推荐:Jaspersoft?)

数据可视化(工具很多,可以根据实际需要选择)

大数据处理算法(10经典算法)