大数据应用技术经过最近几年的爆发性发展,已经在各行各业产生了广泛而深刻的影响,但是我们仍然面对三大挑战:
1. 人才缺口巨大。需要大量的工程师从其他方向转型投入到大数据方向上来,他们有基础、有经验,但是缺乏人工领域的专业知识,需要为他们在数据,算法,算力等多个层面上给予系统的指导,以便这些工程师尽快投入到大数据开发的工作中来。
2. 从技能本身的角度来看,大数据是综合交叉学科,以数据为基础,算法为核心,业务理解和编程实现为手段,如何利用这些技术给我们和客户带来最大的价值,业界大多数人仍然对此没有深入的认识,而这些问题是关系到竞争力和价值创造的核心问题。
3. 大数据业务落地应用效果产出的核心是大数据平台开发技术,如何掌握大数据平台开发语言更好的解决我们的业务问题,关系到我们业务价值的快速实现。
从解决客户实际问题出发,该人才培养方案的从三个角度做出了创新:
1. 内容深度上的创新,在过去的十年,整个IT技术栈,从底层存储和计算到上层机器学习应用实现,大数据分布式存储和分布式并行计算框架及应用都做了很多的改变。因此,我们相比传统的大数据课程,增加了计算机组成、操作系统和集群技术的内容,同时在上层增加了大数据应用架构、业务应用场景和最佳实践案例的内容。
2. 内容广度上的创新,IT技术发展至今,“生态”二字越来越重要,尤其是当我们探讨大数据落地应用的时候,更不能离开生态孤立地讨论大数据技术。本课程将基于授课讲师强大的专业背景和丰富的实战经验,结合大数据技术、数据、业务场景等来讲授大数据的应用模式,课程结合业务项目一起跟进如何落地实现。
3. 从形式上,除了常规理论讲授与实际操作以外,我们还引入结合客户实际需求进行小组研讨、专家评审和相关项目案例引入的方式,将人才培养进一步落到实处,最大能力帮助客户提升能力,助力战略转型。
本系列课程总共由9门课程组成:
教学设计 | NO. | 课程名称 | 课程天数 |
基础与概述 | 1 | 大数据技术基础与应用 | 1天 |
2 | Java语言入门 | 2天 | |
3 | Linux基础 | 1天 | |
4 | 大数据基础理论与算法入门 | 7天 | |
核心技术讲解及实际案例实操 | 5 | Hadoop生态系统 | 7天 |
6 | Spark生态系统 | 8天 | |
7 | 大数据流式处理技术入门 | 5天 | |
8 | 大数据可视化 | 2天 | |
大数据平台搭建 | 9 | 大数据平台搭建案例分享与实践 | 7天 |
第1-4门课属于基础与概述,分别从技术基础,Java,Linux及基础理论算法进行针对性基础知识加固。
第5-9门课程就Hadoop系统、Spark系统、流式计算三大核心技术详细讲解,期间穿插实际案例讲解如何基于这些技术搭建企业级应用及开发实践。
整个课程体系及授课有全栈大数据专家讲师全程落地,确保每个模块的深入落地及模块之间的衔接连贯,行成体系的综合开发技能
【匹配关键知识点】
大数据概述,大数据行业应用解析(PI)等内容。
【课程时间】
1天(6小时/天)
【课程简介】
本课程通过对大数据技术的时代背景和业务应用场景实践案例介绍大数据技术涉及的基础技术和典型应用场景,为学员学习大数据技术明确学习方向和目标。
【课程收益】
1、了解大数据技术的时代背景
2、了解大数据技术的商业价值
3、掌握大数据涉及的基本技术及应用
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”,提升其行动学习能力:
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级:一级是领域知识一览图(思维导图);二级是高度提炼的知识内容要点(PPT);三级是中外优质资源的知识原文出处(网站链接) 。
通过 “知识地图”,帮助学员构建持续学习网络,使其对大数据架构“领域知识”一览无余,“前沿动态”实时掌握!
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授,而是通过“沙盘演练”,用实战串讲知识,用演练提升能力,助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军,并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作,也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
无前置课程要求
【课程大纲】(1天*6小时)
时间 | 内容 | 案例实践与练习 |
Day1 上午 第一篇 大数据概述 | 一、大数据时代背景 二、大数据业务应用场景 三、大数据在各行业最佳实践案例 | 案例讨论:大数据行业应用价值 |
Day1 下午 第二篇 大数据行业应用解析 | 一、大数据处理技术发展趋势 二、大数据主要存储技术介绍 三、大数据主要计算技术介绍 | 案例分析: 大数据与传统存储计算技术的关系
|
【匹配关键知识点】
Java概述与环境搭建,Java数据类型与运算符及语法等内容。
【课程时间】
2天(6小时/天)
【课程简介】
本课程通过Java基本开发语言的介绍,帮助学员掌握Java的核心原理和开发方法,并利用Java进行应用开发。培训实践与理论并重,通过理论讲解,实例分析,以及对关键技术的实操练习,从而帮助学员深刻理解Java核心原理和提升学员在工作中的实践技能。。
【课程收益】
1、了解Java的核心编程
2、了解大数据技术的商业价值
3、掌握大数据涉及的基本技术及应用
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”,提升其行动学习能力:
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级:一级是领域知识一览图(思维导图);二级是高度提炼的知识内容要点(PPT);三级是中外优质资源的知识原文出处(网站链接) 。
通过 “知识地图”,帮助学员构建持续学习网络,使其对大数据架构“领域知识”一览无余,“前沿动态”实时掌握!
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授,而是通过“沙盘演练”,用实战串讲知识,用演练提升能力,助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军,并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作,也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
具备初步的IT基础知识
【课程大纲】(2天*6小时)
时间 | 内容 | 案例实践与练习 |
Day1 上午 第一篇 java 语言概述 | 一、java 语言概述 二、java 应用场景 三、java 发展历史 | 案例讨论:大数据行业应用价值 |
Day1 下午 第二篇 java 语言基础 | 一、 java编译原因 二、 基本的数据结构 三、 | 案例练习: java基础开发 |
Day2 上午 第三篇 java 面向对象开发 | 一、 类及对象 二、 识别类及类之间关系 三、 Java类库中的GregorianCalendar类 | 案例练习:面向对象开发 |
Day2 下午 第四篇 java 开发应用 | 一、 图形程序设计基础 二、 创建框架及框架定位 三、 部署应用程序和applet | 案例练习:java 开发应用 |
【匹配关键知识点】
Linux概念及简单操作等内容。
【课程时间】
1天(6小时/天)
【课程简介】
本课程通过Linux系统体系及命令的介绍,帮助学员掌握Linux的核心原理和管理开发方法。培训实践与理论并重,通过理论讲解,实例分析,以及对关键技术的实操练习,从而帮助学员深刻理解Linux核心原理和提升学员在工作中的实践技能。。
【课程收益】
1、了解Linux核心原理
2、了解Linux的系统体系功能
3、掌握Linux的基本命令及应用
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”,提升其行动学习能力:
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级:一级是领域知识一览图(思维导图);二级是高度提炼的知识内容要点(PPT);三级是中外优质资源的知识原文出处(网站链接) 。
通过 “知识地图”,帮助学员构建持续学习网络,使其对大数据架构“领域知识”一览无余,“前沿动态”实时掌握!
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授,而是通过“沙盘演练”,用实战串讲知识,用演练提升能力,助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军,并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作,也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
具备初步的IT基础知识
【课程大纲】(1天*6小时)
时间 | 内容 | 案例实践与练习 |
Day1 上午 第一篇 Linux系统基础 | 一、 开源历史、Linux系统的种类及优势特性 二、 常用的Linux系统命令及内核原理 三、 Linux系统RPM、Yum及守护进程机制理论 | 案例练习:Linux系统命令 |
Day1 下午 第二篇 Linux系统命令 | 一、 Linux系统命令Shell脚本原理及作用,环境变量的作用 二、 Linux系统内核与BASH解释器的关系 三、 Linux用户管理文件管理进程管理 | 案例练习:用户管理文件管理进程管理实战演练 |
【匹配关键知识点】
数理统计基础理论, SQL语法与应用实战 ,数据建模基础理论,数据预处理、探索性数据分析,数据采集、抽样和预测,SVM算法、决策树算法、聚类算法、贝叶斯算法、回归算法等内容。
【课程时间】
7天(6小时/天)
【课程简介】
本课程通过大数据基础理论与算法的介绍,帮助学员掌握大数据大数据基础理论与算法基础。培训实践与理论并重,通过理论讲解,实例分析,以及对关键技术的实操练习,从而帮助学员深刻理解大数据基础理论与算法应用和提升学员在工作中的实践技能。
【课程收益】
1、了解大数据基础理论及应用场景
2、了解大数据核心算法原理
3、掌握大数据平台基础理论与算法应用开发
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”,提升其行动学习能力:
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级:一级是领域知识一览图(思维导图);二级是高度提炼的知识内容要点(PPT);三级是中外优质资源的知识原文出处(网站链接) 。
通过 “知识地图”,帮助学员构建持续学习网络,使其对大数据架构“领域知识”一览无余,“前沿动态”实时掌握!
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授,而是通过“沙盘演练”,用实战串讲知识,用演练提升能力,助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军,并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作,也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
具备初步的IT基础知识
【课程大纲】(7天*6小时)
时间 | 内容 |
第一天 | 第1个主题:概率论与数理统计入门(目的:掌握必备的概率论与数理统计相关入门知识,为下个主题的深入讲解打好基础)
|
第二天 | 第2个主题:离散值的概率分布(目的:掌握离散值的概率分布相关知识点,包括伯努利、二项、方差等关键核心内容 )
课堂实操:概率统计各种相关类型习题讲解,由浅入深探索概率统计 第3个主题:SQL语法与应用实战(目的:掌握SQL语法及数据库实战应用)
|
第三天 | 第4个主题:数据预处理(目的:掌握数据预处理的流程及方法)
第5个主题:数据分析入门(目的:数据分析简介)
|
第四天 | 第6个主题:Numpy与Pandas(目的:掌握数据处理常用库的使用)
|
第五天 | 第7个主题:大数据算法基础(目的:深入机器学习核心,掌握相关理论知识)
|
第六天 | 第8个主题:大数据算法基础(目的:掌握核心算法以及了解机器学习相关的热门实现)
|
第七天 | 第9个主题:大数据算法实战训练(目的:带领学员完成大量的实战案例,巩固所学知识)
|
【匹配关键知识点】
HDFS使用操作, MapReduce开发 ,yarn原理和应用,Hbase数据库开发,Hive数据仓库开发,Scala入门等内容。
【课程时间】
7天(6小时/天)
【课程简介】
本课程通过Hadoop系统体系及命令的介绍,帮助学员掌握Hadoop的核心架构原理和管理开发方法。培训实践与理论并重,通过理论讲解,实例分析,以及对关键技术的实操练习,从而帮助学员深刻理解Hadoop生态系统及开发应用和提升学员在工作中的实践技能。
【课程收益】
1、了解Hadoop生态系统及应用场景
2、了解Hadoop生态系统的核心功能和架构
3、掌握Hadoop生态系统组件的基本命令及应用
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”,提升其行动学习能力:
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级:一级是领域知识一览图(思维导图);二级是高度提炼的知识内容要点(PPT);三级是中外优质资源的知识原文出处(网站链接) 。
通过 “知识地图”,帮助学员构建持续学习网络,使其对大数据架构“领域知识”一览无余,“前沿动态”实时掌握!
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授,而是通过“沙盘演练”,用实战串讲知识,用演练提升能力,助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军,并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作,也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
学习完Java,Linux和大数据基础理论和应用前置课程
【课程大纲】(7天*6小时)
时间 | 内容 | 案例实践与练习 |
Day1 上午 第一篇 大数据Hadoop技术架构 | 一、Hadoop在云计算技术的作用和地位, 二、Hadoop的基础概念、数据管理、特性 三、Hadoop集群及架构原理 | 案例练习:Hadoop集群管理命令 |
Day1 下午 第二篇 Hadoop组件详解:HDFS | 一、HDFS特征及读写文件 二、NameNode的考虑 三、HDFS安全概览 | 案例练习:HDFS基础命令 |
Day2 上午 第三篇 Hadoop组件详解:HDFS | 一、运用 Hadoop文件Shell 二、利用Flume 从外部源摄取数据 三、利用Sqoop从关系数据库摄取数据 | 案例练习:HDFS脚本及接口命令 |
Day2 下午 第四篇 Hadoop的计算框架 | 一、MapReduce原理及特征 二、YARN2.0架构与原理 三、Zookeeper和YARN2.0关系 | 案例练习:MapReduce运行及调度 |
Day3 上午 第五篇 SQOOP核心原理架构 | 一、SQOOP原理及特征 二、SQOOP开发应用 三、SQOOP和Hadoop关系 | 案例练习:SQOOP开发 |
Day3 下午 第六篇 zookeeper应用实战 | 一、zookeeper原理及特征 二、zookeeper架构与应用 三、Zookeeper和Hadoop关系 | 案例练习:Zookeeper集群管理命令 |
Day4 上午 第七篇 Hbase核心原理架构 | 一、HBase原理及特征 二、HBase and RDBMS 三、HBase Shell | 案例练习:HBase Shell命令 |
Day4 下午 第八篇 Hbase应用实战 | 一、创建表 二、HBase 的ROWKEY设计 三、Hbase的优化设计 | 案例练习:HBase 优化设计 |
Day5 上午 第九篇 Hive简介 | 一、Hive模式和数据存储 二、Hive与传统数据库的比较 三、Hive应用案例 | 案例练习:Hive模式及管理命令 |
Day5 下午 第十篇 Hive 基础开发 | 一、HQL基础DDL编程 二、HQL基础DML编程 三、HQL实现关联操作 | 案例练习:Hive 基础开发 |
Day6 上午 第十一篇 Hive模型开发 | 一、Hive管理的各中表与模型应用 二、装载数据进入Hive 三、Hive维度模型开发应用 | 案例练习:Hive模型开发 |
Day6 下午 第十二篇 Hive与Flume,SQOOP组合应用 | 一、Flume装载数据进入Hive 二、SQOOP装载数据进入Hive 三、Hive开发与Hadoop关系 | 案例练习:Hive接口开发 |
Day7 上午 第十三篇 Scala基础 | 一、Scala基础知识 二、Scala常用集合 三、Scala应用场景 | 案例练习:Scala基础开发 |
Day7 下午 第十四篇 Scala开发应用 | 一、函数对象 二、编程实例 三、Scala高级开发应用 | 案例练习:Scala开发应用 |
【匹配关键知识点】
Spark生态系统概述及培训关键点概述 ,Spark SQL开发,Spark Streaming/Spark Mllib/ Spark Graphx开发等内容。
【课程时间】
8天(6小时/天)
【课程简介】
本课程通过Spark系统体系及命令的介绍,帮助学员掌握Spark的核心架构原理和管理开发方法。培训实践与理论并重,通过理论讲解,实例分析,以及对关键技术的实操练习,从而帮助学员深刻理解Spark生态系统及开发应用和提升学员在工作中的实践技能。
【课程收益】
1、了解Spark生态系统及应用场景
2、了解Spark生态系统的核心功能和架构
3、掌握Spark生态系统组件的基本命令及应用
【课程特点】
通过“知识地图”和 “沙盘演练”帮助学员“边干边学”,提升其行动学习能力:
● 采用“知识地图”形成持续学习网络
“知识地图”分共三级:一级是领域知识一览图(思维导图);二级是高度提炼的知识内容要点(PPT);三级是中外优质资源的知识原文出处(网站链接) 。
通过 “知识地图”,帮助学员构建持续学习网络,使其对大数据架构“领域知识”一览无余,“前沿动态”实时掌握!
● 通过“沙盘演练”在实战中学习
课堂没有冗长乏味的理论讲授,而是通过“沙盘演练”,用实战串讲知识,用演练提升能力,助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军,并具备在行动中学习的能力。
● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作,也可以在线登录老师自主开发的大数据实战平台在线操作。
【课程对象】
大数据技术相关人员
【学员基础】
学习完Java,Linux和大数据基础理论和应用前置课程
【Spark生态系统系统课程大纲】(8天*6小时)
时间 | 内容 | 案例实践与练习 |
Day1 上午 第一篇 Spark生态系统 | 一、Spark发展历史及简介 二、Spark业务应用场景 三、Spark与Hadoop系统关系 | 案例讨论:Spark与Hadoop系统关系 |
Day1 下午 第二篇 Spark原理架构 | 一、Spark原理及特征 二、Spark架构及组件应用场景 三、Spark接口及应用场景 | 案例讨论:Spark接口及应用场景 |
Day2 上午 第三篇 Spark数据结构 | 一、RDD基础 二、转换操作与执行操作 三、共享变量 | 案例练习:RDD基础开发操作 |
Day2 下午 第四篇 Spark计算模型 | 一、Spark计算框架原理及特征 二、Spark架构与应用 三、Spark之宽窄依赖和DAG调度 | 案例练习:Spark计算模型及运行日志查看 |
Day3 上午 第五篇 Spark调度模型 | 一、Spark资源调度原理及特征 二、Spark资源调度架构及应用 三、Spark资源调度基于Hadoop | 案例练习:Spark调度命令 |
Day3 下午 第六篇 Spark接口开发 | 一、Spark生态系统接口介绍 二、Spark生态系统接口与Hadoop 三、Spark生态系统接口与大数据分析 | 案例练习:Spark接口开发 |
Day4 上午 第七篇 Spark SQL基础开发 | 一、Spark SQL原理与架构 二、Hive SQL与Spark SQL 三、Spark SQL开发应用 | 案例练习:Spark SQL基础开发 |
Day4 下午 第八篇 Spark SQL模型开发 | 一、Spark SQL与Hive 二、Spark SQL与模型构建 三、Spark SQL与数据挖掘分析 | 案例练习:Spark SQL模型开发 |
Day5 上午 第九篇 Spark Streaming开发 | 一、Spark Streaming基本原理 二、Spark Streaming开发基础 三、Spark Streaming开发应用 | 案例练习:Spark Streaming开发 |
Day5 下午 第十篇 Spark Mllib开发 | 一、Spark ML读取数据 二、Spark ML对数据进行探索 三、Spark ML训练模型 | 案例练习:Spark Mllib开发 |
Day6 上午 第十一篇 Spark Mllib开发 | 一、Spark ML组装任务 二、Spark ML评估、优化模型 三、Spark Mllib开发 | 案例练习:Spark Mllib开发 |
Day6 下午 第十二篇 Spark Graphx应用 | 一、Spark GraphX 的核心代码剖析 二、Spark GraphX 命令方式操作 三、Spark GraphX 的客户端 API 介绍 | 案例练习:Spark Graphx开发 |
Day7 上午 第十三篇 SparkR接口开发 | 一、R语言基础知识 二、R语言开发基础 三、SparkR开发及应用场景 | 案例练习:SparkR开发 |
Day7 下午 第十四篇 PySpark开发应用 | 一、PySpark之Python基础 二、Python数据结构 三、Python循环结构 | 案例练习:PySpark基础开发 |
Day8 上午 第十五篇 PySpark开发应用 | 一、Python机器学习 二、基于PySpark开发Python机器学习 三、PySpark机器学习开发应用 | 案例练习:PySpark机器学习开发应用 |
Day8 下午 第十六篇 PySpark开发应用 | 一、Python深度学习 二、基于PySpark开发Python深度学习 三、PySpark深度学习开发应用 | 案例练习:PySpark深度学习开发应用 |