本项目主要采用目前大数据领域最成熟的实时计算框架 Spark,它是目前主流企业在实时计算方向采用的主流框架。本项目使用了Spark技术生态栈中的三个技术框架:Spark Core、Spark Streaming和Spark MLlib,进行道路交通实时流量监控预测系统的开发。业务实现包括数据产生模块、数据实时收集处理模块、特征数据提取模块、模型预测模块、数据存储模块。
课程目录
需求分析
1、项目背景
2、总体业务要求
3、难点分析
数据收集
1、数据采集阶段技术对比
2、项目中数据采集技术Kafka
3、Kafka安装及基本操作
4、Kafka的API操作及项目中应用
数据流处理
1、数据实时处理阶段技术拓展Storm
2、Spark Streaming实用项目解决方案
3、Spark Streaming项目中性能调优
数据快速存取
1、项目存储工具Redis
2、Redis部署、基本操作及项目中使用
模型建立
1、项目机器学习算法库Mllib
2、Mllib基本数据格式
3、项目中实际模型选择
整体解决方案设计
1、产品功能的简单介绍
2、架构设计
3、技术选型
4、部署方案
5、模块设计划分
部署及代码实现
1、测试环境介绍
2、分析模块实现1–数据产生
3、分析模块实现2–数据实时收集处理模块
4、分析模块实现3–特征数据提取及模型预测
5、分析模块实现4–模型预测
6、项目调优