【课程特色】
1. 课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。
2. 清晰的知识结构,根据应用经验采用最优化授课模式。
3. 内容充沛、详略得当,前后呼应。
4. 讲师资历丰富,具有丰富的实践经验。
5. 知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪
【课程时间】2天
【课程大纲】
第一天:实战准备基础
第1 章 大数据技术概述
1.1 大数据的概念与关键技术
1.2 代表性大数据技术
1.2.1 Hadoop
1.2.2 Spark
1.2.3 Flink
1.2.4 Beam
1.3 编程语言的选择
实验1 Linux 系统的安装和常用命令
第2 章 Scala 语言基础
2.1 Scala 语言概述
2.2 Scala 基础知识
2.3 面向对象编程基础
2.4 函数式编程基础
实验2 Scala 编程初级实践
第3 章 Spark 的设计与运行原理
3.1 概述
3.2 Spark 生态系统
3.3 Spark 运行架构
3.4 Spark 的部署方式
第4 章 Spark 环境搭建和使用方法
4.1 安装Spark
4.2 在spark-shell 中运行代码
4.3 开发Spark 独立应用程序
4.3.1 安装编译打包工具
4.3.2 编写Spark 应用程序代码
4.3.3 编译打包
4.3.4 通过spark-submit 运行程序
4.4 Spark 集群环境搭建
4.5 在集群上运行Spark 应用程序
实验3 Spark 和Hadoop 的安装
第5 章 RDD 编程
5.1 RDD 编程基础
5.2 键值对RDD
5.3 数据读写
5.4 综合实例
实验4 RDD 编程初级实践
第6 章 Spark SQL
6.1 Spark SQL 简介
6.2 DataFrame 概述
6.3 DataFrame 的创建
6.4 DataFrame 的保存
6.5 DataFrame 的常用操作
6.6 从RDD 转换得到DataFrame
6.7 使用Spark SQL 读写数据库
实验5 Spark SQL 编程初级实践
第7 章 Spark Streaming
7.1 流计算概述
7.2 Spark Streaming
7.3 DStream 操作概述
7.4 基本输入源
7.5 高级数据源
7.6 转换操作
7.7 输出操作
实验6 Spark Streaming 编程初级实践
第8 章 Spark Mllib
8.1 基于大数据的机器学习
8.2 机器学习库MLlib 概述
8.3 基本数据类型
8.4 机器学习流水线
8.5 特征提取、转换和选择
8.6 分类算法
8.7 聚类算法
8.8 协同过滤算法
8.9 模型选择和超参数调整
实验7 Spark 机器学习库MLlib 编程
第二天:实战案例分析及运用
讲解案例1:淘宝双11数据分析与预测
延伸案例:生产状态实时监测
案例简介
本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。通过本案例,将有助于综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。
案例目的
硬件要求
本案例可以在单机上完成,也可以在集群环境下完成。
单机上完成本案例实验时,建议计算机硬件配置为:500GB以上硬盘,8GB以上内存。
软件工具
本案例所涉及的系统及软件:
数据集
淘宝购物行为数据集 (5000万条记录,数据有偏移,不是真实的淘宝购物交易数据,但是不影响学习)
案例任务
讲解案例2:Spark大数据分析案例之平均心率检测
延伸案例:智慧安防的大数据运用
案例简介
本案例涉及数据预处理、消息队列发送和接收消息、数据实时处理、数据实时推送和实时展示等数据处理全流程所涉及的各种典型操作,涵盖Linux、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、sockert.io.js、PyCharm等系统和软件的安装和使用方法。
案例目的
硬件要求
本案例可以在单机上完成,也可以在集群环境下完成。
单机上完成本案例实验时,建议计算机硬件配置为:500GB以上硬盘,8GB以上内存。
软件工具
本案例所涉及的系统及软件:
数据相关
本案例采用的数据集是由应用程序producer随机产生的。该数据集表示的正常人的心跳速率。下面列出产生的数据格式定义:
1. name | 姓名
2. rate | 心跳率
3. dt | 产生数据的时间
案例任务