大数据学习路线是什么?
第一阶段:学习基础知识。
这部分主要针对初学者,需要掌握基础的数据库知识才能学习。MySQL是一个DBMS(数据库管理系统),也是最流行的关系数据库管理系统(关系数据库是基于关系数据库模型的数据库,借助集合代数等概念和方法对数据库中的数据进行处理)。
MongoDB是IT行业非常流行的非关系数据库(NoSQL),其灵活的数据存储方式受到当前IT从业者的青睐。
Redis是一个开放源代码、支持网络、基于内存和键值对存储的数据库。两者都了解是非常必要的。
1,Linux基础介绍(新版)
2.Vim编辑器
3.Git实践课程
4、MySQL基础课程
5.MongoDB基础教程
6.Redis基础教程?
第二阶段:Java基础
Java是目前应用最广泛的编程语言,它有很多特点,特别适合作为大数据应用的开发语言。
Java语言有两个特点:功能强大和易于使用。跨平台应用能力比C和C++更好用,更容易上手。同时,它还具有简单性、面向对象性、分布式、健壮性、安全性、平台独立性和可移植性、多线程和动态性等特点。最重要的一点是Hadoop是用Java写的。
1,Java编程语言(新版本)
2.Java的高级设计模式
3.J2SE核心发展实战
4.JDK核心API
5.JDBC入门教程
6.Java 8新特性指南
第三阶段:Scala基金会
Scala是一种多范式编程语言,其初衷是融合面向对象编程和函数式编程的特点。Scala运行在Java平台(Java虚拟机)上,兼容现有的Java程序,因此Scala可以很好地与基于JVM的大数据相关系统集成。
1,Scala开发教程
2.Scala专题课程-案例类和模式匹配
3、Scala教程——隐式转换和隐式参数
4.Scala教程-抽象成员
5.Scala特殊教程-提取器
6.Scala开发21点游戏。
第4阶段:Hadoop技术模块
Hadoop是一个开源软件框架,支持数据密集型分布式应用,在Apache 2.0的许可协议下发布。它可以构建大规模的数据仓库,存储、处理、分析和统计PB级的数据。你可以选择编程语言,但是Hadoop一定是大数据的必备。
1,Hadoop入门高级课程
2.Hadoop部署和管理
3、HBASE教程
4.Hadoop分布式文件系统-导入和导出数据
5.使用Flume收集数据。
第五阶段:Hadoop项目实战
当然,学完理论之后,还要进行实战。Hadoop项目实战有助于加深对内容的理解,锻炼实践能力。
1,Hadoop图形处理- 《hadoop应用框架》
阶段6:火花技术模块
Spark和Hadoop都是大数据框架。Hadoop提供了Spark没有的特性,比如分布式文件系统,Spark为那些需要的数据集提供实时内存处理。所以学习Spark也是非常必要的。
1、火花
2.x快速入门教程
2.Spark大数据动手实验
3.学习基于Spark的GraphX图形计算框架。
4.学习基于Spark的数据框架的基本概念。
5.基于Spark的数据框架高级应用技巧。
6.基于Spark的流媒体可以快速上手。
7.基于Spark的SQL快速入门
8.基于Spark的机器学习库MLlib的使用
9.基于Spark的SparkR可以快速上手。
10,流式实时日志分析系统- 《Spark最佳实践》
11.用Spark和D3.js分析飞行大数据
第七阶段:大数据项目实战
最后阶段,我们提供一个大数据实践项目,是对常用技能的系统化应用,比如使用常用的机器学习进行建模、分析和操作,这是成为大数据工程师过程中的重要一步。
1,Ebay网上拍卖数据分析?
2.流式实时日志分析系统——《Spark最佳实践》
3.大数据带你发现打车秘籍。
4.推特数据的情感分析
5.使用Spark分析流量日志。
6.星火流量计算电商产品关注度
7.Spark模式挖掘-FPGrowth算法。
扩展数据:
大数据技术的具体内容:
分布式存储计算架构(强烈推荐Hadoop)
分布式编程(包括Apache Pig或Hive)
分布式文件系统(如Google GFS)
多种存储模型,主要包括文档、图形、键值和时间序列(如BigTable、Apollo、?DynamoDB等。)
数据收集架构(如Kinesis、Kafla)
集成开发环境(如R-Studio)
程序开发辅助工具(例如大量第三方开发辅助工具)
调度协调架构工具(如Apache Aurora)
机器学习(常用的阿帕奇看象人或H2O)
托管管理(例如Apache Hadoop基准测试)
安全管理(常用网关)
大数据系统部署(可以看到Apache Ambari)
搜索引擎架构(?学习或企业建议使用Lucene搜索引擎)
各种数据库的发展(MySQL/Memcached)
商业智能(强烈推荐:Jaspersoft?)
数据可视化(工具很多,可以根据实际需要选择)
大数据处理算法(10经典算法)