刘晖：大数据分析实战-Spark编程

刘晖专家讲师 429查看

课程概要

培训时长 : 2天

课程价格 : 扫码添加微信咨询

课程分类 : 数据分析

课程编号 : 17755

联系老师

适用对象

课程介绍

【课程特色】

1. 课上采用案例式教学，通俗易懂，课下一对一辅导强化训练，学与练交叉进行强化记忆，你所要做的就是认真听，勤于问，乐于练。

2. 清晰的知识结构，根据应用经验采用最优化授课模式。

3. 内容充沛、详略得当，前后呼应。

4. 讲师资历丰富，具有丰富的实践经验。

5. 知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪

【课程时间】2天

【课程大纲】

第一天：实战准备基础

第1 章大数据技术概述

1.1 大数据的概念与关键技术

1.2 代表性大数据技术

1.2.1 Hadoop

1.2.2 Spark

1.2.3 Flink

1.2.4 Beam

1.3 编程语言的选择

实验1 Linux 系统的安装和常用命令

第2 章 Scala 语言基础

2.1 Scala 语言概述

2.2 Scala 基础知识

2.3 面向对象编程基础

2.4 函数式编程基础

实验2 Scala 编程初级实践

第3 章 Spark 的设计与运行原理

3.1 概述

3.2 Spark 生态系统

3.3 Spark 运行架构

3.4 Spark 的部署方式

第4 章 Spark 环境搭建和使用方法

4.1 安装Spark

4.2 在spark-shell 中运行代码

4.3 开发Spark 独立应用程序

4.3.1 安装编译打包工具

4.3.2 编写Spark 应用程序代码

4.3.3 编译打包

4.3.4 通过spark-submit 运行程序

4.4 Spark 集群环境搭建

4.5 在集群上运行Spark 应用程序

实验3 Spark 和Hadoop 的安装

第5 章 RDD 编程

5.1 RDD 编程基础

5.2 键值对RDD

5.3 数据读写

5.4 综合实例

实验4 RDD 编程初级实践

第6 章 Spark SQL

6.1 Spark SQL 简介

6.2 DataFrame 概述

6.3 DataFrame 的创建

6.4 DataFrame 的保存

6.5 DataFrame 的常用操作

6.6 从RDD 转换得到DataFrame

6.7 使用Spark SQL 读写数据库

实验5 Spark SQL 编程初级实践

第7 章 Spark Streaming

7.1 流计算概述

7.2 Spark Streaming

7.3 DStream 操作概述

7.4 基本输入源

7.5 高级数据源

7.6 转换操作

7.7 输出操作

实验6 Spark Streaming 编程初级实践

第8 章 Spark Mllib

8.1 基于大数据的机器学习

8.2 机器学习库MLlib 概述

8.3 基本数据类型

8.4 机器学习流水线

8.5 特征提取、转换和选择

8.6 分类算法

8.7 聚类算法

8.8 协同过滤算法

8.9 模型选择和超参数调整

实验7 Spark 机器学习库MLlib 编程

第二天：实战案例分析及运用

讲解案例1：淘宝双11数据分析与预测

延伸案例：生产状态实时监测

案例简介

本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作，涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。通过本案例，将有助于综合运用大数据课程知识以及各种工具软件，实现数据全流程操作。

案例目的

熟悉Linux系统、MySQL、Hadoop、Hive、Sqoop、Spark等系统和软件的安装和使用；
了解大数据处理的基本流程；
熟悉数据预处理方法；
熟悉在不同类型数据库之间进行数据相互导入导出；
熟悉使用JSP语言搭建动态Web工程；
熟悉使用Spark MLlib进行简单的分类操作。

硬件要求

本案例可以在单机上完成，也可以在集群环境下完成。

单机上完成本案例实验时，建议计算机硬件配置为：500GB以上硬盘，8GB以上内存。

软件工具

本案例所涉及的系统及软件：

Linux系统
MySQL
Hadoop
Hive
Sqoop
ECharts
Eclipse
Spark

数据集

淘宝购物行为数据集 (5000万条记录，数据有偏移，不是真实的淘宝购物交易数据，但是不影响学习)

案例任务

安装Linux操作系统
安装关系型数据库MySQL
安装大数据处理框架Hadoop
安装数据仓库Hive
安装Sqoop
安装Eclipse
安装 Spark
对文本文件形式的原始数据集进行预处理
把文本文件的数据集导入到数据仓库Hive中
对数据仓库Hive中的数据进行查询分析
使用Sqoop将数据从Hive导入MySQL
利用Eclipse搭建动态Web应用
利用ECharts进行前端可视化分析
利用Spark MLlib进行回头客行为预测

讲解案例2：Spark大数据分析案例之平均心率检测

延伸案例：智慧安防的大数据运用

案例简介

本案例涉及数据预处理、消息队列发送和接收消息、数据实时处理、数据实时推送和实时展示等数据处理全流程所涉及的各种典型操作，涵盖Linux、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、sockert.io.js、PyCharm等系统和软件的安装和使用方法。

案例目的

熟悉Linux系统、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、socket.io.js等系统和软件的安装和使用；
了解Spark+Kafka实时处理数据的基本流程；
熟悉Python操作Kafka的方法；
熟悉Spark Streaming程序编写；
熟悉Spark操作Kafka的方法；
熟悉Python构建Web程序；
熟悉SocketIO实时推送消息；
熟悉Highcharts.js展示数据。

硬件要求

本案例可以在单机上完成，也可以在集群环境下完成。

单机上完成本案例实验时，建议计算机硬件配置为：500GB以上硬盘，8GB以上内存。

软件工具

本案例所涉及的系统及软件：

Linux系统
Spark
Kafka
Flask
Flask-SocketIO
Highcharts.js
Socket.io.js
PyCharm

数据相关

本案例采用的数据集是由应用程序producer随机产生的。该数据集表示的正常人的心跳速率。下面列出产生的数据格式定义：

1. name | 姓名

2. rate | 心跳率

3. dt | 产生数据的时间

案例任务

安装Linux操作系统
安装Spark
安装Kafka
安装Python依赖库
安装PyCharm
对文本文件形式的原始数据集进行预处理
将预处理后的数据发送至Kafka
Spark从Kafka获取数据，实时处理，结果发送至Kafka
Flask构建的Web程序从Kafka获取处理后的数据
Flask-SockerIO实时推送数据至客户端
客户端Socket.io.js实时获取数据
客户端Highcharts.js实时展示数据

刘晖老师的其他课程

• 刘晖：大数据分析平台系统培训课程: （1）培训背景大数据应用技术经过最近几年的爆发性发展，已经在各行各业产生了广泛而深刻的影响，但是我们仍然面对三大挑战：1. 人才缺口巨大。需要大量的工程师从其他方向转型投入到大数据方向上来，他们有基础、有经验，但是缺乏人工领域的专业知识，需要为他们在数据，算法，算力等多个层面上给予系统的指导，以便这些工程师尽快投入到大数据开发的工作中来。2. 从技能本身的角度来看，大数据是综合交叉学科，以数据为基础，算法为核心，业务理解和编程实现为手段，如何利用这些技术给我们和客户带来最大的价值，业界大多数人仍然对此没有深入的认识，而这些问题是关系到竞争力和价值创造的核心问题。3. 大数据业务落地应用效果产出的核心是大数据平台开发技术，如何掌握大数据平台开发语言更好的解决我们的业务问题，关系到我们业务价值的快速实现。（2）培训目标从解决客户实际问题出发，该人才培养方案的从三个角度做出了创新：1. 内容深度上的创新，在过去的十年，整个IT技术栈，从底层存储和计算到上层机器学习应用实现，大数据分布式存储和分布式并行计算框架及应用都做了很多的改变。因此，我们相比传统的大数据课程，增加了计算机组成、操作系统和集群技术的内容，同时在上层增加了大数据应用架构、业务应用场景和最佳实践案例的内容。2. 内容广度上的创新，IT技术发展至今，“生态”二字越来越重要，尤其是当我们探讨大数据落地应用的时候，更不能离开生态孤立地讨论大数据技术。本课程将基于授课讲师强大的专业背景和丰富的实战经验，结合大数据技术、数据、业务场景等来讲授大数据的应用模式，课程结合业务项目一起跟进如何落地实现。3. 从形式上，除了常规理论讲授与实际操作以外，我们还引入结合客户实际需求进行小组研讨、专家评审和相关项目案例引入的方式，将人才培养进一步落到实处，最大能力帮助客户提升能力，助力战略转型。（3）教学计划本系列课程总共由9门课程组成：教学设计NO.课程名称课程天数基础与概述1大数据技术基础与应用1天2Java语言入门2天3Linux基础1天4大数据基础理论与算法入门7天核心技术讲解及实际案例实操5Hadoop生态系统7天6Spark生态系统8天7大数据流式处理技术入门5天8大数据可视化2天大数据平台搭建9大数据平台搭建案例分享与实践7天第1-4门课属于基础与概述，分别从技术基础，Java,Linux及基础理论算法进行针对性基础知识加固。第5-9门课程就Hadoop系统、Spark系统、流式计算三大核心技术详细讲解，期间穿插实际案例讲解如何基于这些技术搭建企业级应用及开发实践。整个课程体系及授课有全栈大数据专家讲师全程落地，确保每个模块的深入落地及模块之间的衔接连贯，行成体系的综合开发技能（4）具体课程方案（含课程大纲）课程1：大数据技术基础与应用-1天【匹配关键知识点】大数据概述，大数据行业应用解析（PI）等内容。【课程时间】1天（6小时/天）【课程简介】本课程通过对大数据技术的时代背景和业务应用场景实践案例介绍大数据技术涉及的基础技术和典型应用场景，为学员学习大数据技术明确学习方向和目标。【课程收益】1、了解大数据技术的时代背景2、了解大数据技术的商业价值3、掌握大数据涉及的基本技术及应用【课程特点】通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：● 采用“知识地图”形成持续学习网络“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！● 通过“沙盘演练”在实战中学习课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。【课程对象】大数据技术相关人员【学员基础】无前置课程要求【课程大纲】（1天*6小时）时间内容案例实践与练习Day1上午第一篇大数据概述一、大数据时代背景二、大数据业务应用场景三、大数据在各行业最佳实践案例案例讨论：大数据行业应用价值Day1下午第二篇大数据行业应用解析一、大数据处理技术发展趋势二、大数据主要存储技术介绍三、大数据主要计算技术介绍案例分析：大数据与传统存储计算技术的关系课程2：Java语言入门-2天【匹配关键知识点】Java概述与环境搭建，Java数据类型与运算符及语法等内容。【课程时间】2天（6小时/天）【课程简介】本课程通过Java基本开发语言的介绍，帮助学员掌握Java的核心原理和开发方法，并利用Java进行应用开发。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解Java核心原理和提升学员在工作中的实践技能。。【课程收益】1、了解Java的核心编程2、了解大数据技术的商业价值3、掌握大数据涉及的基本技术及应用【课程特点】通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：● 采用“知识地图”形成持续学习网络“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！● 通过“沙盘演练”在实战中学习课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。【课程对象】大数据技术相关人员【学员基础】具备初步的IT基础知识【课程大纲】（2天*6小时）时间内容案例实践与练习Day1上午第一篇java 语言概述一、java 语言概述二、java 应用场景三、java 发展历史案例讨论：大数据行业应用价值Day1下午第二篇 java 语言基础一、 java编译原因二、基本的数据结构三、案例练习： java基础开发Day2上午第三篇java 面向对象开发一、类及对象二、识别类及类之间关系三、 Java类库中的GregorianCalendar类案例练习：面向对象开发Day2下午第四篇 java 开发应用一、图形程序设计基础二、创建框架及框架定位三、部署应用程序和applet案例练习：java 开发应用课程3：Linux基础-1天【匹配关键知识点】Linux概念及简单操作等内容。【课程时间】1天（6小时/天）【课程简介】本课程通过Linux系统体系及命令的介绍，帮助学员掌握Linux的核心原理和管理开发方法。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解Linux核心原理和提升学员在工作中的实践技能。。【课程收益】1、了解Linux核心原理2、了解Linux的系统体系功能3、掌握Linux的基本命令及应用【课程特点】通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：● 采用“知识地图”形成持续学习网络“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！● 通过“沙盘演练”在实战中学习课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。【课程对象】大数据技术相关人员【学员基础】具备初步的IT基础知识【课程大纲】（1天*6小时）时间内容案例实践与练习Day1上午第一篇Linux系统基础一、开源历史、Linux系统的种类及优势特性二、常用的Linux系统命令及内核原理三、 Linux系统RPM、Yum及守护进程机制理论案例练习：Linux系统命令Day1下午第二篇 Linux系统命令一、 Linux系统命令Shell脚本原理及作用，环境变量的作用二、 Linux系统内核与BASH解释器的关系三、 Linux用户管理文件管理进程管理案例练习：用户管理文件管理进程管理实战演练课程4：大数据基础理论与算法入门-7天【匹配关键知识点】数理统计基础理论， SQL语法与应用实战，数据建模基础理论，数据预处理、探索性数据分析，数据采集、抽样和预测，SVM算法、决策树算法、聚类算法、贝叶斯算法、回归算法等内容。【课程时间】7天（6小时/天）【课程简介】本课程通过大数据基础理论与算法的介绍，帮助学员掌握大数据大数据基础理论与算法基础。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解大数据基础理论与算法应用和提升学员在工作中的实践技能。【课程收益】1、了解大数据基础理论及应用场景2、了解大数据核心算法原理3、掌握大数据平台基础理论与算法应用开发【课程特点】通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：● 采用“知识地图”形成持续学习网络“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！● 通过“沙盘演练”在实战中学习课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。【课程对象】大数据技术相关人员【学员基础】具备初步的IT基础知识【课程大纲】（7天*6小时）时间内容第一天第1个主题：概率论与数理统计入门（目的：掌握必备的概率论与数理统计相关入门知识，为下个主题的深入讲解打好基础）聊聊概率这件事什么是随机变量什么是概率分布什么是古典概型联合概率与边缘概率乘法与全概率公式贝叶斯公式介绍独立性与独立事件课堂实操：概率统计各种相关类型习题讲解，由浅入深探索概率统计在各种业务/项目上的应用。第二天第2个主题：离散值的概率分布（目的：掌握离散值的概率分布相关知识点，包括伯努利、二项、方差等关键核心内容）定义与分布律介绍离散型随机变量介绍伯努利、二项及泊松分布期望值及其计算方法方差与标准差介绍大数定理介绍课堂实操：概率统计各种相关类型习题讲解，由浅入深探索概率统计第3个主题：SQL语法与应用实战（目的：掌握SQL语法及数据库实战应用）SQL概述数据库基本操作数据类型和约束条件数据填充与数据导入查询操作符与子查询SQL查询函数介绍课堂实操：动手实际实现客户订单查询案例第三天第4个主题：数据预处理（目的：掌握数据预处理的流程及方法）数据审核数据筛选数据排序数据清洗数据集成数据变换数据归约课堂实操：合并不同数据源数据、缺失值与异常值处理、数据标准化处理、Matplotlib绘图第5个主题：数据分析入门（目的：数据分析简介）数据分析概述数据分析开发环境搭建数据分析学习技巧课堂实操：量化炒股实例、python常用科学计算第四天第6个主题：Numpy与Pandas（目的：掌握数据处理常用库的使用）[Numpy]基本概述[Numpy]多维数据对象[Numpy]元素级别处理函数[Numpy]使用数组进行数据处理[Numpy]文件输入输出[Numpy]线性代数相关知识[Pandas]基本数据结构[Pandas]索引、选取、过滤、排序等[Pandas]汇总和计算描述统计[Pandas]缺失数据处理[Pandas]层次化索引课堂实操：数据处理及统计案例练习第五天第7个主题：大数据算法基础（目的：深入机器学习核心，掌握相关理论知识）K最邻近算法朴素贝叶斯线性回归梯度下降最大似然估计多重回归模型Logistic回归Logistic函数介绍支持向量机课堂实操：算法练习第六天第8个主题：大数据算法基础（目的：掌握核心算法以及了解机器学习相关的热门实现）什么是决策树什么是熵神经网络的感知机前向传播神经网络什么是聚类K均值算法自然语言处理推荐系统介绍课堂实操：实现机器学习相关完整案例第七天第9个主题：大数据算法实战训练（目的：带领学员完成大量的实战案例，巩固所学知识）课堂实操：深度学习热门框架实战课堂实操：花朵分类课堂实操：目标检测课堂实操：垃圾邮件处理课堂实操：金融数据分析课堂实操: kaggle竞赛实例课程5：Hadoop生态系统-7天【匹配关键知识点】HDFS使用操作， MapReduce开发，yarn原理和应用，Hbase数据库开发，Hive数据仓库开发，Scala入门等内容。【课程时间】7天（6小时/天）【课程简介】本课程通过Hadoop系统体系及命令的介绍，帮助学员掌握Hadoop的核心架构原理和管理开发方法。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解Hadoop生态系统及开发应用和提升学员在工作中的实践技能。【课程收益】1、了解Hadoop生态系统及应用场景2、了解Hadoop生态系统的核心功能和架构3、掌握Hadoop生态系统组件的基本命令及应用【课程特点】通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：● 采用“知识地图”形成持续学习网络“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！● 通过“沙盘演练”在实战中学习课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。【课程对象】大数据技术相关人员【学员基础】学习完Java,Linux和大数据基础理论和应用前置课程【课程大纲】（7天*6小时）时间内容案例实践与练习Day1上午第一篇大数据Hadoop技术架构一、Hadoop在云计算技术的作用和地位，二、Hadoop的基础概念、数据管理、特性三、Hadoop集群及架构原理案例练习：Hadoop集群管理命令Day1下午第二篇 Hadoop组件详解：HDFS一、HDFS特征及读写文件二、NameNode的考虑三、HDFS安全概览案例练习：HDFS基础命令Day2上午第三篇Hadoop组件详解：HDFS一、运用 Hadoop文件Shell二、利用Flume 从外部源摄取数据三、利用Sqoop从关系数据库摄取数据案例练习：HDFS脚本及接口命令Day2下午第四篇 Hadoop的计算框架一、MapReduce原理及特征二、YARN2.0架构与原理三、Zookeeper和YARN2.0关系案例练习：MapReduce运行及调度Day3上午第五篇SQOOP核心原理架构一、SQOOP原理及特征二、SQOOP开发应用三、SQOOP和Hadoop关系案例练习：SQOOP开发Day3下午第六篇 zookeeper应用实战一、zookeeper原理及特征二、zookeeper架构与应用三、Zookeeper和Hadoop关系案例练习：Zookeeper集群管理命令Day4上午第七篇Hbase核心原理架构一、HBase原理及特征二、HBase and RDBMS三、HBase Shell案例练习：HBase Shell命令Day4下午第八篇 Hbase应用实战一、创建表二、HBase 的ROWKEY设计三、Hbase的优化设计案例练习：HBase 优化设计Day5上午第九篇Hive简介一、Hive模式和数据存储二、Hive与传统数据库的比较三、Hive应用案例案例练习：Hive模式及管理命令Day5下午第十篇 Hive 基础开发一、HQL基础DDL编程二、HQL基础DML编程三、HQL实现关联操作案例练习：Hive 基础开发Day6上午第十一篇Hive模型开发一、Hive管理的各中表与模型应用二、装载数据进入Hive 三、Hive维度模型开发应用案例练习：Hive模型开发Day6下午第十二篇 Hive与Flume,SQOOP组合应用一、Flume装载数据进入Hive 二、SQOOP装载数据进入Hive三、Hive开发与Hadoop关系案例练习：Hive接口开发Day7上午第十三篇Scala基础一、Scala基础知识二、Scala常用集合三、Scala应用场景案例练习：Scala基础开发Day7下午第十四篇 Scala开发应用一、函数对象二、编程实例三、Scala高级开发应用案例练习：Scala开发应用课程6：Spark生态系统-8天【匹配关键知识点】Spark生态系统概述及培训关键点概述，Spark SQL开发，Spark Streaming/Spark Mllib/ Spark Graphx开发等内容。【课程时间】8天（6小时/天）【课程简介】本课程通过Spark系统体系及命令的介绍，帮助学员掌握Spark的核心架构原理和管理开发方法。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解Spark生态系统及开发应用和提升学员在工作中的实践技能。【课程收益】1、了解Spark生态系统及应用场景2、了解Spark生态系统的核心功能和架构3、掌握Spark生态系统组件的基本命令及应用【课程特点】通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：● 采用“知识地图”形成持续学习网络“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！● 通过“沙盘演练”在实战中学习课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。【课程对象】大数据技术相关人员【学员基础】学习完Java,Linux和大数据基础理论和应用前置课程【Spark生态系统系统课程大纲】（8天*6小时）时间内容案例实践与练习Day1上午第一篇Spark生态系统一、Spark发展历史及简介二、Spark业务应用场景三、Spark与Hadoop系统关系案例讨论：Spark与Hadoop系统关系Day1下午第二篇 Spark原理架构一、Spark原理及特征二、Spark架构及组件应用场景三、Spark接口及应用场景案例讨论：Spark接口及应用场景Day2上午第三篇Spark数据结构一、RDD基础二、转换操作与执行操作三、共享变量案例练习：RDD基础开发操作Day2下午第四篇 Spark计算模型一、Spark计算框架原理及特征二、Spark架构与应用三、Spark之宽窄依赖和DAG调度案例练习：Spark计算模型及运行日志查看Day3上午第五篇Spark调度模型一、Spark资源调度原理及特征二、Spark资源调度架构及应用三、Spark资源调度基于Hadoop案例练习：Spark调度命令Day3下午第六篇 Spark接口开发一、Spark生态系统接口介绍二、Spark生态系统接口与Hadoop三、Spark生态系统接口与大数据分析案例练习：Spark接口开发Day4上午第七篇Spark SQL基础开发一、Spark SQL原理与架构二、Hive SQL与Spark SQL 三、Spark SQL开发应用案例练习：Spark SQL基础开发Day4下午第八篇 Spark SQL模型开发一、Spark SQL与Hive二、Spark SQL与模型构建三、Spark SQL与数据挖掘分析案例练习：Spark SQL模型开发Day5上午第九篇Spark Streaming开发一、Spark Streaming基本原理二、Spark Streaming开发基础三、Spark Streaming开发应用案例练习：Spark Streaming开发Day5下午第十篇 Spark Mllib开发一、Spark ML读取数据二、Spark ML对数据进行探索三、Spark ML训练模型案例练习：Spark Mllib开发Day6上午第十一篇Spark Mllib开发一、Spark ML组装任务二、Spark ML评估、优化模型三、Spark Mllib开发案例练习：Spark Mllib开发Day6下午第十二篇 Spark Graphx应用一、Spark GraphX 的核心代码剖析二、Spark GraphX 命令方式操作三、Spark GraphX 的客户端 API 介绍案例练习：Spark Graphx开发Day7上午第十三篇SparkR接口开发一、R语言基础知识二、R语言开发基础三、SparkR开发及应用场景案例练习：SparkR开发Day7下午第十四篇 PySpark开发应用一、PySpark之Python基础二、Python数据结构三、Python循环结构案例练习：PySpark基础开发Day8上午第十五篇PySpark开发应用一、Python机器学习二、基于PySpark开发Python机器学习三、PySpark机器学习开发应用案例练习：PySpark机器学习开发应用Day8下午第十六篇 PySpark开发应用一、Python深度学习二、基于PySpark开发Python深度学习三、PySpark深度学习开发应用案例练习：PySpark深度学习开发应用课程7：大数据流式处理技

• 刘晖：大数据分析（全面）系统课程: （1）培训背景随着互联网、云计算、大数据、物联网、人工智能等科技的快速发展，经济发展已经进入全球化时代，企业的命运与国际经济环境紧密联系，如美国的经济危机会波及到全球各个国家与地区和企业，国家和企业已经不是孤立的存在。在经济全球化时代商业环境极其复杂，不仅要考虑国内、国外经济环境，同时还要考虑不同国家的国家政策，不同民族的民族文化，不同宗教的宗教信仰等，更加加深入了商业环境的复杂程度。在极其复杂的国际商业环境中，作为大型企业领导者仅凭经验与智慧无法全面了解与掌控企业、了解国际化的商业环境，因此很难做出正确的企业战略决策，甚至更无法做到企业精细化管理，更不可能做到高效运营，那么，如何突破因商业环境复杂度而导致的企业失控呢？并在复杂的商业竞争环境中脱颖而出并获得最大利润呢？答案是掌握企业数据和掌握国际化数据，并建立高效的数据分析体系，探索数据、挖掘数据高效准确的获取国际化的经济环境状况，洞察市场趋势提前做出有利于企业的战略决策，提高企业竞争力，规避市场风险，数据分析则是提升企业管理水平，实现上述目标的一种行之有效的方法。国际化的竞争就是信息的国际化竞争。随着大数据、人工智能的快速发展，数据的价值越发突显，并为海量的高并发的数据分析提供了新的工具与可行性，较以往的传统数据分析工具更为有效，甚至传统数据分析工具做不到的，大数据、人工智能都能做到。因此不仅仅企业，社会各个方面也因大数据的价值而提高了对数据的关注程度，也加大了数据分析的投入力度。无论是企业管理、战略决策、精准营销、精细化管理等都无处不体现着数据分析的重要性。数据如此重要，如何建设一个高效的数据分析体系呢？至少要具备以下两个条件：一是在宏观层面上正确理解数据分析；二是丰富的IT系统建设经验、分布式技术和较强的数据技术能力。第一点尤为重要，因为一旦在思想和认识层面对数据分析体系理解有误，那么即使精通于各种技术方案，所建立起来的也只是一堆技术架构的粗糙堆砌，虽然也能达到部分数据分析的效果，但必定会事倍功半。构建数据分析体系包括四个层面：一是数据基础平台；二是数据报表与可视化；三是精细化业务分析；四是战略分析与决策。如下图为数据分析体系结构图。那么在数据基础平台建设层面，均采用大数据平台，如Hadoop、Spark等大数据平台，其好处是开源、可控，无需从零开始搭建平台节约成本；也避免了因大数据的多样性、隐私性等特点导致供应无法深入挖掘数据的问题。为什么要自建数据分析平台呢？不能采购吗？答案是不能采购，只能自建！因为数据挖掘一个持续的过程，日常企业经常过程产生的数据、市场数据都是需要分析的，是一个持续不断的工作，不是编写几个算法了事的，所以如果从供应商采购必然会导致分析工作不够深入与不够专业，数据的价值是隐藏在数据中的，需要不断的持续的挖掘才能找的，不是算法和分析工具能做到的。因此企业需要自建数据分析平台，而不采购分析工具。Hadoop、Spark生态系统是大数据技术事实标准，是大数据思想、理念、机制的具体实现，是整个大数据技术中公认的核心框架和具有极强的使用价值与研究价值。Hadoop 系统是一款开源软件，能够处理海量的各种结构（包括结构化、非结构化、半结构化）的数据。Hadoop是分布式集群框架，可以管理成百上千台x86服务器集群。基于 Hadoop 的解决方案能够帮助企业应对多种大数据挑战，包括：分析海量（PB 级或者更多）的数据Hadoop 能够分析所有数据，使得分析更准确，预测更精确；从多个数据类型的组合中获得新的洞察力将来自多个数据源的不同类型的数据进行结合分析，发现新的数据关系和洞察力；存储大量的数据由于它不依赖于高端硬件，且是可扩展的，所以使存储大量数据变得经济有效；数据发现(data discovery)和研究的沙箱Hadoop 提供了一个地方，数据科学家可在此发现新的数据关系和相互依赖性。工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出：“2012 年美国联邦政府就在全球率先推出“大数据行动计划（Big data initiative）”，重点在基础技术研究和公共部门应用上加大投入。在该计划支持下，加州大学伯克利分校开发了完整的大数据开源软件平台“伯克利数据分析软件栈（Berkeley Data Analytics Stack），其中的内存计算软件Spark的性能比Hadoop 提高近百倍，对产业界大数据技术走向产生巨大影响” ----来源：工业和信息化部电信研究院 Spark是成为替代MapReduce架构的大数据分析技术，Spark的大数据生态体系包括流处理、图技术、机器学习等各个方面，并且已经成为Apache顶级项目，可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。国内外一些大型互联网公司已经部署了Spark，并且它的高性能已经得到实践的证明。国外Yahoo已在多个项目中部署Spark，尤其在信息推荐的项目中得到深入的应用；国内的淘宝、爱奇异、优酷土豆、网易、baidu、腾讯等大型互联网企业已经将Spark应用于自己的生产系统中。国内外的应用开始越来越广泛。Spark正在逐渐走向成熟，并在这个领域扮演更加重要的角色。（2）培训目标本次数据分析技术培训课程，整个课程体系设计完备，思路清晰，学员通过本次课程的系统性学习可以掌握如下技能：了解数据分析基本概念及产业链，数据分析与大数据等内容；学会数据的产生、导入与预处理。掌握大数据生成与导入，数据分析流程与建模思想，数据清洗与数据加工等内容；掌握数据分析与挖掘基础。学习常见数据分析方法与数据挖掘概述，描述型数据分析，常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等内容。学习数据分析工具R语言的数据分析实战。学习R语言入门基础，描述性统计分析，用R语言做数据挖掘实战等内容。介绍大数据工具之Hadoop。深入理解Hadoop原理及组件介绍，Hadoop数据分析入门等内容。介绍大数据工具之Spark。深入剖析Spark基本概念，Spark开发与数据分析等内容。编写Pyspark集群调度与数据处理程序。使用Python调度spark集群并进行数据处理等内容。学习大数据可视化技术。包括数据可视化技术概述及培训关键点概述，数据挖掘与可视化工具介绍（SAS、Project、Excel、SPSS、Tableau等），可视化案例分享等内容。学习Python与数据分析实战。包括Python语言入门，Python网络编程、爬虫与机器学习，Python数据分析案例分享，基于spark集群的python数据分析实战等内容。通过以上的系统学习，学员会建立完整的数据知识体系，使学员正确认识大数据，掌握大数据思维方法，为工作、生活和学习打下坚实的基础，为持续成长提供原动力。下图为本次课程结束后学员获取的完整数据知识体系如下图。完整数据知识体系（3）教学计划本系列课程总共由9门课程组成：教学设计NO.课程名称课程天数基础与概述1数据分析概述1天2数据的产生、导入与预处理5天数据分析与数据挖掘核心技术讲解及案例实操3数据分析与挖掘基础6天4R语言数据分析实战6天大数据技术讲解与编程实操5大数据工具介绍之Hadoop2天6大数据工具介绍之Spark3天7Pyspark集群调度与数据处理2天大数据可视化8大数据可视化2天Python与数据分析实战9Python与数据分析实战13天第1-2门课属于基础与概述，包括数据分析基本概念及产业链，数据分析与大数据等内容。大数据生成与导入，数据分析流程与建模思想，数据清洗与数据加工等内容。第3-4门课程数据分析与数据挖掘核心技术讲解及案例实操，包括常见数据分析方法与数据挖掘概述，描述型数据分析，常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等内容。R语言入门基础，描述性统计分析，用R语言做数据挖掘实战等内容。。第5-7门课程主要大数据技术讲解与编程实操，包括Hadoop原理及组件介绍，Hadoop数据分析入门等内容。Spark基本概念，Spark开发与数据分析等内容。使用Python调度spark集群并进行数据处理等内容。第8门是大数据可视化。包括数据可视化技术概述及培训关键点概述，数据挖掘与可视化工具介绍（SAS、Project、Excel、SPSS、Tableau等），可视化案例分享等内容。第9门是Python与数据分析实战。包括Python语言入门，Python网络编程、爬虫与机器学习，Python数据分析案例分享，基于spark集群的python数据分析实战等内容。（4）具体课程方案（含课程大纲）课程1：数据分析概述-1天【匹配关键知识点】数据分析基本概念及产业链，数据分析与大数据等内容。【课程时间】1天（6小时/天）【课程简介】本课程介绍大数据体系构建数据平台，重点内容包括数据平台基础理论、数据集成、数据维度等知识点；本课程让学员掌握基于大数据生态的数据分析知识、大数据生态体系技术选型，能够应用建模技术、大数据技术构建数据平台。随着大数据时代的快速到来，以及大数据在生产生活中迅速应用，数据分析、数据建模、数据挖掘、机器学习等重要性越发突出，本课程是针对大数据时代的特点，尹老师总结多年数据分析经验，而精心设计的课程，课程内容涵盖了数据领域的数据处理、统计分析、数据挖掘、机器学习等内容的应用范围、发展前景剖析。【课程收益】1、数据分析基本概念及产业链等内容；2、数据分析与大数据等内容；【课程特点】数据分析基本概念及产业链，数据分析与大数据等内容【课程对象】 数据分析师、技术经理、产品经理、产品助理等 将承担数据分析师职责的业务人员或信息化人员 希望加强数据分析能力的软件开发人员 系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】 具有2年以IT部门工作经验，将负责数据分析等相关任务的技术人员【课程大纲】（1天*6小时）时间内容案例实践与练习Day1数据分析概述数据知识体系数据仓库诞生的历史背景大数据时代数据仓库的演变大数据是一套全新的思维体系纵向、横向扩容全量分析大数据是一套全新的技术体系大数据思维与传统软件思维的区别大数据的数据仓库与传统数据仓库的区别硬件成本、软件技术积累数据知识体系数据采集数据ETL数据挖掘数据可视化商务智能业务创新应用大数据生态体系介绍大数据支撑----云计算大数据核心----海量数据大数据灵魂----大数据技术大数据价值----大数据商业思维大数据企业应用障碍分析案例练习：通过大数据企业应用障碍分析案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：大数据企业应用障碍分析课程2：数据的产生、导入与预处理-5天【匹配关键知识点】大数据生成与导入，数据分析流程与建模思想，数据清洗与数据加工等内容。【课程时间】5天（6小时/天）【课程简介】随着大数据时代的快速到来，以及大数据在生产生活中迅速应用，大数据领域如雨后春笋般的出现大量的新技术，如Hadoop、Spark等技术，其中Python语言已经成为大数据技术中最为重要的一部分，被越来越多的企业所使用。Python语言的功能涵盖了大数据领域的数据处理、统计分析、数据挖掘、机器学习、人工智能、大数据应用开发等各种不同类型的计算操作，应用范围广泛、前景非常广阔。本课程是尹老师多年工作经验的总结和归纳，从实际业务案例为入口，使学员从理论层到实操层面系统的学习数据处理技术，使学员深入理解Python语言等数据分析工具。通过本课程的学习，学员即可以正确的分析企业的数据，为管理者、决策层提供数据支撑。【课程收益】1、大数据生成与导入；2、数据分析流程与建模思想；3、数据清洗与数据加工。【课程特点】大数据生成与导入，数据分析流程与建模思想，数据清洗与数据加工等内容。【课程对象】 数据分析师、技术经理、产品经理、产品助理等 将承担数据分析师职责的业务人员或信息化人员 希望加强数据分析能力的软件开发人员 系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】 具有2年以IT部门工作经验，将负责数据分析等相关任务的技术人员【课程大纲】（5天*6小时）时间内容案例实践与练习Day1数据的产生、导入与预处理数据知识体系数据采集数据ETL数据挖掘数据可视化商务智能业务创新应用数据分析挖掘的过程建立数据库的方法企业对数据分析挖掘的错误认识ETL的设计ETL的实施数据源数据采集随机抽样数据去重数据缺失值处理检验数据逻辑错误离群点检测数据转换数据分组课堂实操：数据整理的编程和应用案例练习：通过数据整理的编程和应用案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：数据整理的编程和应用Day2数据清洗与数据加工ROLAP与多维数据库OLAP与OLTP的区别多维数据库与数据仓库的关系OLAP模型搭建（多维模型）确定维度、量度与事实的关系OLAP的应用场景决策支持技术企业OLAP模型设计案例剖析数据模型设计原则与模型搭建星型架构与雪花型架构事实表与维度表的设计逻辑设计与物理设计数据模型设计的常用方法数据模型设计技巧总结数据模型分片数据模型索引数据模型粒度数据模型案例分析案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：数据模型案例分析Day3大数据生成与导入大数据基础理论介绍大数据的生成与导入大数据技术CAP理论BASE思想消息机制分布式协调器心跳机制日志结构文件系统RWN理论跨操作系统调度资源大数据企业实践电商遇到的问题大型互联网企业遇到的问题大数据主要解决的问题实例分享：淘宝双十一实例分享：腾讯QQ实例分享：百度文库实例分享：打车大战大数据的作用Pig 设计的目标Pig Latine介绍Pig关键性技术Pig的实用案例Hive简介Hive的组件与体系架构Hive架构Hive vs RDBMSHive的高可用部署方案Hive Data TypesHive安装模式Hive安装部署Hive ShellHive API开发演示Hive中UDF和UDAFHive数据分析Sqoop简介Sqoop架构Sqoop安装Sqoop ShellFlume简介及使用Flume架构Flume数据源类型Flume收集数据2种主要工作模式电商客户日志分析大型国企大数据应用大数据架构案例分享及实战演练案例练习：通过淘宝双十一案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：淘宝双十一Day4数据分析流程数据分析基本概念数据分析算法数据分析工具数据分析流程数据分析范畴数据挖掘基本概念数据挖掘模型数据挖掘模型评估数据挖掘目标数据挖掘数据质量数据挖掘的9大定律数据挖掘发展趋势案例研讨：通过数据挖掘案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：数据挖掘Day5数据分析流程与建模思想定义挖掘目标数据取样数据探索数据预处理挖掘建模建立模型业务理解模型拟合训练集测试集模型评价企业实践案例分享案例练习：通过企业实践案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：企业实践案例分享Day5数据的统计学知识和模型回归分析贝叶斯算法聚类算法SVM决策树算法关联规则算法时间序列算法神经网络深度学习人工智能其他挖掘算法以上数据模型的应用案例剖析案例练习：通过数据模型的应用案例剖析案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：数据模型的应用案例剖析课程3：数据分析与挖掘基础-6天【匹配关键知识点】常见数据分析方法与数据挖掘概述，描述型数据分析，常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等内容。【课程时间】6天（6小时/天）【课程简介】随着大数据时代的快速到来，以及大数据在生产生活中迅速应用，数据分析、数据建模、数据挖掘、机器学习、神经网络、深度学习、人工智能等重要性越发突出，本课程是针对大数据时代的特点，尹老师总结多年数据分析经验，而精心设计的课程，课程内容涵盖了数据领域的数据处理、统计分析、数据挖掘、机器学习、神经网络、深度学习、人工智能等内容，以及人工智能的应用范围、发展前景剖析。【课程收益】1、常见数据分析方法与数据挖掘概述；2、描述型数据分析；3、常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等。【课程特点】常见数据分析方法与数据挖掘概述，描述型数据分析，常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等内容。【课程对象】 数据分析师、技术经理、产品经理、产品助理等 将承担数据分析师职责的业务人员或信息化人员 希望加强数据分析能力的软件开发人员 系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】 具有2年以IT部门工作经验，将负责数据分析等相关任务的技术人员【课程大纲】（6天*6小时）时间内容案例实践与练习Day1常见数据分析方法与数据挖掘概述数据分析与建模的概念数据分析与建模过程数据分析模型开发过程数据建模概述机器学习概念机器学习算法剖析算法库分类算法库深度学习神经网络人工智能商业智能案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：数据分析的过程Day2描述型数据分析统计学基本概念统计数据的计量尺度常用基本统计量集中趋势的描述指标离散趋势的描述指标中心极限定理大数定律数据的分布正态分布的特征偏度和峰度检测数据集的分布数据的分布拟合检验与正态性检验抽样标准假设检验T检验置信区间案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：描述性数据分析Day3常见数据分析与挖掘算法数据挖掘的基本任务数据挖掘建模过程定义挖掘目标数据取样数据探索数据预处理挖掘建模建立模型业务理解模型拟合训练集测试集模型评价常用的数学预测模型线性回归回归（预测）与分类决策树与随机森林聚类分析（kmeans）关联规则时序模式离群点检测深度学习人工智能神经网络案例：如何从数据中挖掘出有价值的信息案例研讨：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：常用数据分析方法与算法Day4朴素贝叶斯与回归分析主成分分析和因子分析（深入剖析主成分分析及因子分析）主成分分析总体主成分样本主成分主成分分析模型案例：主成分分析模型实现课堂实操：主成分分析模型实现方差分析（深入剖析方差分析方法及实现）单因素方差分析单因素方差分析模型因素效应的显著性检验因素各水平均值的估计与比较两因素等重复试验下的方差分析统计模型交互效应及因素效应的显著性检验无交互效应时各因素均值的估计与比较有交互效应时因素各水平组合上的均值估计与比较两因素非重复试验下的方差分析金融案例：方差分析实现课堂实操：方差分析实现 Bayes统计分析（深入剖析Bayes统计分析）Baves统计模型Bayes统计分析的基本思想Bayes统计模型Bayes统计推断原则先验分布的Bayes假设与不变先验分布共轭先验分布先验分布中超参数的确定Baves统计推断参数的Bayes点估计Bayes区间估计Bayes假设检验案例：实现Bayes统计分析建模课堂实操：实现Bayes统计分析建模数学建模（深入剖析数学建模）数学建模数学预测模型模型评估模型参数优化回归分析与分类分析原理与应用（深入剖析数据的回归分析与分类分析的原理以及应用）回归与分类回归分析概念线性回归模型及其参数估计一元线性回归一元线性回归模型一元线性回归模型求解参数损失函数求偏导回归方程的显著性检验残差分析误差项的正态性检验残差图分析统计推断与预测回归模型的选取穷举法逐步回归法岭回归分析一元线性回归金融案例：一元线性回归模型检验多元线性回归概述多元线性回归模型金融案例：多元线性回归实现航空业信用打分和评级模型 Logistic回归分析（剖析Logistic回归与其它回归分析方法）Logistic回归介绍Logistic函数Logistic回归模型案例：SPSS Logistic回归实现课堂实操： Logistic回归实现航空业欺诈预测模型课堂实操： Logistic回归实现航空业风险分析模型非线性回归原理及应用（剖析非线性回归原理及应用实践）非线性回归双曲线函数幂函数指数函数对数函数S型曲线案例：非线性回归实现课堂实操：非线性回归实现航空业经营分析和绩效分析模型案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：主成分分析模型实现Day5聚类分析与关联规则挖掘数据建模常用距离（深入剖析数据建模过程中常用的距离模型）数据挖掘常用距离欧氏距离曼哈顿距离切比雪夫距离闵可夫斯基距离标准化欧氏距离马氏距离夹角余弦汉明距离杰卡德距离 & 杰卡德相似系数相关系数 & 相关距离信息熵聚类分析与建模实现（深入剖析聚类分析以及通过SPSS聚类算法模型分析数据）聚类分析聚类算法样品间相近性的度量快速聚类法快速聚类法的步骤用Lm距离进行快速聚类谱系聚类法类间距离及其递推公式谱系聚类法的步骤变量聚类案例：SPSS聚类实现及绘图案例：Kmeans应用案例剖析课堂实操：编写程序实现Kmeans应用案例剖析关联规则分析与实现（深入剖析关联规则分析以及通过SPSS关联规则算法模型分析数据）关联规则支持度与置信度关联规则挖掘的过程Apriori算法关联规则案例支持度与置信度计算案例：SPSS实现关联规则课堂实操：SPSS实现航空业数据关联规则分析案例练习：通过编写程序实现Kmeans应用案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：编写程序实现Kmeans应用案例剖析Day6决策树与随机森林决策树分析与实现（深入剖析决策树分析以及通过SPSS决策树模型分析数据）决策树分析决策树决策树构成要素决策树算法原理决策树法的决策过程决策树算法案例：实现决策树分析课堂实操：实现航空业客户细分模型随机森林数据建模时序模式分析与实现（深入剖析时序模式分析）时序模式时间序列分析时间序列分析时间序列序列分析的三个阶段课堂实操：实现航空业客户流失模型案例练习：通过实现航空业客户细分模型案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：实现航空业客户细分模型课程4：R语言数据分析实战-6天【匹配关键知识点】R语言入门基础，描述性统计分析，用R语言做数据挖掘实战等内容。【课程时间】6天（6小时/天）【课程简介】R语言由新西兰奥克兰大学ross ihaka和robert gentleman 开发。R语言是自由软件，具有非常强大的统计分析和作图功能，而且具有非常丰富的网上资源，目前R软件有3000多种贡献包，几乎可以实现所有的统计方法，目前大部分的顶级统计学家和计量经济学家都使用R语言，而且越来越多的数据分析实务人员也开始使用R语言。学习R软件正成为一种趋势。R语言具有简单易学，功能强大，体积小（仅30M），完全免费，可自由开发等特点，且R语言和S语言语法基本相同，绝大部分程序是互相兼容的。R软件最优美的地方是它能够修改很多前人编写的包的代码做各种你所需的事情，实际你是站在巨人的肩膀上。【课程收益】1、R语言入门基础；2、描述性统计分析；3、用R语言做数据挖掘实战等内容；【课程特点】R语言入门基础，描述性统计分析，用R语言做数据挖掘实战等内容。【课程对象】 数据分析师、技术经理、产品经理、产品助理等 将承担数据分析师职责的业务人员或信息化人员 希望加强数据分析能力的软件开发人员 系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】 具有2年以IT部门工作经验，将负责数据分析等相关任务的技术人员【课程大纲】（6天*6小时）时间内容案例实践与练习Day1R语言入门基础 R语言简介（介绍R语言工具）R语言历史与趋势剖析安装R语言RStudio使用工作空间的设置R程序包的载入与使用R资源网上查找方法介绍 R语言语法介绍（R语言基础语法介绍）R语言的数据类型介绍R语言的数据结构介绍数据的读入和输出R语言连接RDBMS数据库介绍数据库的读/写R和SQL的交互循环语句条件语句遍历常用函数常用算法定性变量离散变量连续变量多元变量对向量、矩阵和列表进行运算提取和插入元素日期和时间数据的操作处理编写自定义函数解决复杂问题编程技巧编程案例介绍案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：R语言编程Day2R语言绘图功能 R语言的绘图功能介绍（R语言的探索性分析与数据可视化）绘图函数图形增强函数图形互动函数高级绘图命令散点图柱状图直方图R语言数据预处理（R语言的数据的读取、清洗和转换）数据预处理日期和时间的处理因子变量的操作下标数据整理技术字符串操作数据子集的筛选识别重复数据和缺失值处理函数映射数据转换整理技术变量的重新编码plyr、reshape2等包整理数据案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：R语言绘图Day3R语言与外部数据交互数据的读入和输出（R语言的数据的读取、加载和写出）数据的读入和写出read.tablescan内置数据集的读取R语言连接RDBMS数据库介绍R语言RDBMS数据库操作实操：R和MySQL的交互实操：R和Oracle的交互数据库的读/写R和SQL的交互实操：R和Excel的交互R语言大数据操作实操：R编写Spark程序案例研讨：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：R语言与RDBMS交互Day4描述性统计分析 R语言统计模拟与随机抽样（R语言的算法介绍）随机数生成蒙特卡洛模拟中心极限定理的模拟线性模型剖析线性模型诊断方法多元选择模型剖析随机抽样案例：蒙特卡罗模拟的应用描述统计分析与离群点检测（掌握R语言用法和基本数据分析、数据描述统计分析）基本数据分析（随机数的生成和统计模拟）单变量数据分析与作图双变量数据分析与作图（二维表分析，并列箱线图，相关系数）多变量数据分析与作图（多变量相关系数矩阵）离群点检测案例1：汽车数据描述统计分析案例2：财政收入与税收描述统计分析案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：描述性统计分析Day5用R语言做数据挖掘实战基本数据分析（数据分析和数据挖掘基础介绍）中心极限定理大数定律正态分布的特征偏度和峰度检测数据集的分布概率分布随机数生成随机抽样蒙特卡洛模拟用蒙特卡罗方法计算圆周率π案例：蒙特卡罗模拟的应用实操：R语言实现蒙特卡罗求圆周率回归与分类（掌握回归算法与实际建模分析应用,回归与分类剖析，R语言实现及预测应用）回归分析回归分析概念线性模型剖析一元线性回归一元线性回归模型一元线性回归模型求解参数损失函数求偏导线性模型评估方法实操：R语言一元线性回归实操：R语言一元线性回归模型检验多元线性回归（多元线性回归剖析，R语言实现及预测应用）多元选择模型剖析多元线性回归思想实操：R语言实现多元线性回归非线性回归（非线性回归剖析，R语言实现及预测应用）双曲线函数幂函数指数函数对数函数S 型曲线实操：R语言非线性回归逐步回归分析岭回归分析 Logistic回归（Logistic回归剖析，R语言实现及预测应用）Logistic函数绘制Logistic曲线Logistic回归介绍案例：用户离网预测案例：中国税收收入增长案例分析案例：新教学方法的效果案例：信用卡违约预测案例练习：通过用户离网预测案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：用户离网预测Day6用R语言文本数据挖掘实战文本挖掘应用（介绍文本数据挖掘的实际应用场景）文本结构分析文章分类文章摘要文章聚类相似文章推荐NLP自然语言处理命名实体识别案例分析文本数据挖掘过程（介绍文本数据挖掘的流程）文本预处理文本挖掘模式与表示模式评估中文分词技术介绍（介绍文本挖掘的基础中文分词技术）信息检索倒排索引文本分词停用词词根主要的分词方法基于规则的词性标注自动语义标注中文分词软件包R语言中文分词代码实现中文分词TF-IDF算法介绍（介绍TF-IDF文章分类算法以及代码实

• 刘晖：大数据分析（Python）系统课程: 数据分析培训班（6门课程，共18天）（1）培训背景随着互联网、云计算、大数据、物联网、人工智能等科技的快速发展，经济发展已经进入全球化时代，企业的命运与国际经济环境紧密联系，如美国的经济危机会波及到全球各个国家与地区和企业，国家和企业已经不是孤立的存在。在经济全球化时代商业环境极其复杂，不仅要考虑国内、国外经济环境，同时还要考虑不同国家的国家政策，不同民族的民族文化，不同宗教的宗教信仰等，更加加深入了商业环境的复杂程度。在极其复杂的国际商业环境中，作为大型企业领导者仅凭经验与智慧无法全面了解与掌控企业、了解国际化的商业环境，因此很难做出正确的企业战略决策，甚至更无法做到企业精细化管理，更不可能做到高效运营，那么，如何突破因商业环境复杂度而导致的企业失控呢？并在复杂的商业竞争环境中脱颖而出并获得最大利润呢？答案是掌握企业数据和掌握国际化数据，并建立高效的数据分析体系，探索数据、挖掘数据高效准确的获取国际化的经济环境状况，洞察市场趋势提前做出有利于企业的战略决策，提高企业竞争力，规避市场风险，数据分析则是提升企业管理水平，实现上述目标的一种行之有效的方法。国际化的竞争就是信息的国际化竞争。随着大数据、人工智能的快速发展，数据的价值越发突显，并为海量的高并发的数据分析提供了新的工具与可行性，较以往的传统数据分析工具更为有效，甚至传统数据分析工具做不到的，大数据、人工智能都能做到。因此不仅仅企业，社会各个方面也因大数据的价值而提高了对数据的关注程度，也加大了数据分析的投入力度。无论是企业管理、战略决策、精准营销、精细化管理等都无处不体现着数据分析的重要性。数据如此重要，如何建设一个高效的数据分析体系呢？至少要具备以下两个条件：一是在宏观层面上正确理解数据分析；二是丰富的IT系统建设经验、分布式技术和较强的数据技术能力。第一点尤为重要，因为一旦在思想和认识层面对数据分析体系理解有误，那么即使精通于各种技术方案，所建立起来的也只是一堆技术架构的粗糙堆砌，虽然也能达到部分数据分析的效果，但必定会事倍功半。（2）培训目标本次数据分析技术培训课程，整个课程体系设计完备，思路清晰，学员通过本次课程的系统性学习可以掌握如下技能：了解数据分析的基础知识及基本理论；结合Python语言学会数据的产生、导入与预处理。掌握大数据生成与导入，数据分析流程与建模思想，数据清洗与数据加工等内容；结合Python语言掌握数据分析与挖掘基础。学习常见数据分析方法与数据挖掘概述，描述型数据分析。学习数据分析工具Python语言的数据分析实战。掌握结构化数据工具SQL的应用及相关知识。学习大数据可视化技术。包括数据可视化技术概述及培训关键点概述，数据挖掘与可视化工具介绍（Excel、SPSS、Tableau等），可视化案例分享等内容。学习Python与数据分析实战。包括Python语言入门，Python网络编程、爬虫与机器学习，Python数据分析案例分享等内容。（3）教学计划本系列课程总共由6门课程组成：教学设计NO.课程名称课程天数基础理论1概率论与数理统计1天SQL语法基础及进阶2数据分析与挖掘基础2天Python入门3Python环境准备及相关数据分析库（pandas、numpy、matplotlib、scipy）的安装及应用2天4Python语言基础知识1天5正则表达式及Python编程1天Python与数据分析实战6数据采集1天7数据分析4天8爬虫技术与实践4天数据可视化9大数据可视化2天（4）具体课程方案（含课程大纲）课程1：概率论与数理统计-1天【匹配关键知识点】课程目标1：建立必要的概率论与数理统计基本知识素养，掌握探索随机现象统计规律的一般方法。课程目标2：掌握概率论与数理统计的基本概念、基本理论、基本方法和运算技能。包括概率论的基本概念、随机变量、多维随机变量、随机变量的数字特征、数理统计的基本概念、参数估计等相关知识。熟悉数据处理、数据分析、数据推断的各种基本方法。课程目标3：掌握处理随机现象的基本思想和方法，培养抽象概括、推理论证、严密的逻辑思维能力，以及使用概率论与数理统计的方法去分析和解决有关实际问题的能力。【课程时间】1天（8小时/天）【课程简介】通过本课程的学习，应掌握概率论与数理统计的基本概念，了解它的基本理论和方法，从而使学生初步掌握处理随机现象的基本思想和方法，培养学生运用概率统计方法分析和解决实际问题的能力，并且在知识传授的同时起到价值引领的作用，积极培育和践行社会主义核心价值观，培养学生科学、严谨的思维能力。【课程特点】教学中以课堂讲授为主，以讨论为辅。采用启发式教学法，适当运用讨论式教学法。融入联系应用的案例式教学法，并倡导利用结合软件技术解决实际问题的实验式教学法。恰当使用多媒体教学与传统教学相结合的教学手段，充分运用教师对学生讲授与学生间自由讨论相结合、传统解题训练与开放型问题探索相结合、以及实体课堂面对面交流与虚拟课堂数字信息交流相结合的交互式教学手段，合理利用网络资源实施开放性教学手段，采用规范统考与多样化考查相结合的考核手段。【课程大纲】（1天*8小时）时间内容案例实践与练习Day1数据分析概述1面向小白的统计学：描述性统计（均值，中位数，众数，方差，标准差，与常见的统计图表）2概率的基本概念(方差、分位数、随机试验、样本空间、事件、频率、概率、排列组合)，古典概型3条件概率与贝叶斯公式，独立性4微积分：随机变量及其分布（二项分布，均匀分布，正态分布）5多维随机变量及其分布6随机变量的期望，方差与协方差7大数定律、中心极限定理与抽样分布8从抽样推测规律之一：点估计与区间估计9从抽样推测规律之二：参数估计10基于正态总体的假设检验11秩和检验12预测未来的技术：回归分析13时间序列分析案例练习：研讨：课程3：数据分析与挖掘基础-6天【匹配关键知识点】常见数据分析方法与数据挖掘概述，描述型数据分析，常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等内容。【课程时间】6天（8小时/天）【课程简介】随着大数据时代的快速到来，以及大数据在生产生活中迅速应用，数据分析、数据建模、数据挖掘、机器学习、神经网络、深度学习、人工智能等重要性越发突出，本课程是针对大数据时代的特点，尹老师总结多年数据分析经验，而精心设计的课程，课程内容涵盖了数据领域的数据处理、统计分析、数据挖掘、机器学习、神经网络、深度学习、人工智能等内容，以及人工智能的应用范围、发展前景剖析。【课程收益】1、常见数据分析方法与数据挖掘概述；2、描述型数据分析；3、常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等。【课程特点】常见数据分析方法与数据挖掘概述，描述型数据分析，常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等内容。【课程对象】 数据分析师、技术经理、产品经理、产品助理等 将承担数据分析师职责的业务人员或信息化人员 希望加强数据分析能力的软件开发人员 系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】 具有2年以IT部门工作经验，将负责数据分析等相关任务的技术人员【课程大纲】（6天*8小时）时间内容案例实践与练习Day1常见数据分析方法与数据挖掘概述数据分析与建模的概念数据分析与建模过程数据分析模型开发过程数据建模概述机器学习概念机器学习算法剖析算法库分类算法库深度学习神经网络人工智能商业智能案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：数据分析的过程Day2描述型数据分析统计学基本概念统计数据的计量尺度常用基本统计量集中趋势的描述指标离散趋势的描述指标中心极限定理大数定律数据的分布正态分布的特征偏度和峰度检测数据集的分布数据的分布拟合检验与正态性检验抽样标准假设检验T检验置信区间案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：描述性数据分析Day3常见数据分析与挖掘算法数据挖掘的基本任务数据挖掘建模过程定义挖掘目标数据取样数据探索数据预处理挖掘建模建立模型业务理解模型拟合训练集测试集模型评价常用的数学预测模型线性回归回归（预测）与分类决策树与随机森林聚类分析（kmeans）关联规则时序模式离群点检测深度学习人工智能神经网络案例：如何从数据中挖掘出有价值的信息案例研讨：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：常用数据分析方法与算法Day4朴素贝叶斯与回归分析主成分分析和因子分析（深入剖析主成分分析及因子分析）主成分分析总体主成分样本主成分主成分分析模型案例：主成分分析模型实现课堂实操：主成分分析模型实现方差分析（深入剖析方差分析方法及实现）单因素方差分析单因素方差分析模型因素效应的显著性检验因素各水平均值的估计与比较两因素等重复试验下的方差分析统计模型交互效应及因素效应的显著性检验无交互效应时各因素均值的估计与比较有交互效应时因素各水平组合上的均值估计与比较两因素非重复试验下的方差分析金融案例：方差分析实现课堂实操：方差分析实现Bayes统计分析（深入剖析Bayes统计分析）Baves统计模型Bayes统计分析的基本思想Bayes统计模型Bayes统计推断原则先验分布的Bayes假设与不变先验分布共轭先验分布先验分布中超参数的确定Baves统计推断参数的Bayes点估计Bayes区间估计Bayes假设检验案例：实现Bayes统计分析建模课堂实操：实现Bayes统计分析建模数学建模（深入剖析数学建模）数学建模数学预测模型模型评估模型参数优化回归分析与分类分析原理与应用（深入剖析数据的回归分析与分类分析的原理以及应用）回归与分类回归分析概念线性回归模型及其参数估计一元线性回归一元线性回归模型一元线性回归模型求解参数损失函数求偏导回归方程的显著性检验残差分析误差项的正态性检验残差图分析统计推断与预测回归模型的选取穷举法逐步回归法岭回归分析一元线性回归金融案例：一元线性回归模型检验多元线性回归概述多元线性回归模型金融案例：多元线性回归实现航空业信用打分和评级模型 Logistic回归分析（剖析Logistic回归与其它回归分析方法）Logistic回归介绍Logistic函数Logistic回归模型案例：SPSS Logistic回归实现课堂实操： Logistic回归实现航空业欺诈预测模型课堂实操： Logistic回归实现航空业风险分析模型非线性回归原理及应用（剖析非线性回归原理及应用实践）非线性回归双曲线函数幂函数指数函数对数函数S型曲线案例：非线性回归实现课堂实操：非线性回归实现航空业经营分析和绩效分析模型案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：主成分分析模型实现Day5聚类分析与关联规则挖掘数据建模常用距离（深入剖析数据建模过程中常用的距离模型）数据挖掘常用距离欧氏距离曼哈顿距离切比雪夫距离闵可夫斯基距离标准化欧氏距离马氏距离夹角余弦汉明距离杰卡德距离 & 杰卡德相似系数相关系数 & 相关距离信息熵聚类分析与建模实现（深入剖析聚类分析以及通过SPSS聚类算法模型分析数据）聚类分析聚类算法样品间相近性的度量快速聚类法快速聚类法的步骤用Lm距离进行快速聚类谱系聚类法类间距离及其递推公式谱系聚类法的步骤变量聚类案例：SPSS聚类实现及绘图案例：Kmeans应用案例剖析课堂实操：编写程序实现Kmeans应用案例剖析关联规则分析与实现（深入剖析关联规则分析以及通过SPSS关联规则算法模型分析数据）关联规则支持度与置信度关联规则挖掘的过程Apriori算法关联规则案例支持度与置信度计算案例：SPSS实现关联规则课堂实操：SPSS实现航空业数据关联规则分析案例练习：通过编写程序实现Kmeans应用案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：编写程序实现Kmeans应用案例剖析Day6决策树与随机森林决策树分析与实现（深入剖析决策树分析以及通过SPSS决策树模型分析数据）决策树分析决策树决策树构成要素决策树算法原理决策树法的决策过程决策树算法案例：实现决策树分析课堂实操：实现航空业客户细分模型随机森林数据建模时序模式分析与实现（深入剖析时序模式分析）时序模式时间序列分析时间序列分析时间序列序列分析的三个阶段课堂实操：实现航空业客户流失模型案例练习：通过实现航空业客户细分模型案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：实现航空业客户细分模型课程8：大数据可视化-2天【匹配关键知识点】数据可视化技术概述及培训关键点概述，数据挖掘与可视化工具介绍（SAS、Project、Excel、SPSS、Tableau等），可视化案例分享等内容。【课程时间】2天（8小时/天）【课程简介】随着互联网、移动智能设备、云计算技术、大数据技术的迅猛发展，使人类产生与获取数据的能力成数量级地增加，面对如此浩瀚的数据海洋，想通过人工分析大数据从而得到大数据中隐含的有价值的模式，几乎是不可能的。因此人们需要借助新的技术挖掘大数据中所蕴含的价值，采用数据可视化技术绝对是一个明智的选择。随着科学技术的不断发展，大量的由计算机产生的中间数据都需要进行可视化处理，以求达到辅助分析、再现客观事实的目的。通过视觉化呈现数据，可揭示了令人惊奇的模式和观察结果，某些数据是不可能通过简单统计就能显而易见的看到的模式和结论。正如作家、记者和信息设计师 David McCandless 在 TED 上说道：“通过视觉化，我们把信息变成了一道可用眼睛来探索的风景线，一种信息地图。当你在迷失在信息中时，信息地图非常实用”。由此足见数据可视化的价值。无论获得信息还是表达信息，最佳方式之一是通过视觉化方式，快速捕捉和展现信息要点与核心要义，这是数据可视化的价值点所在。数据可视化技术有着广阔的发展和应用空间，越来越受到人们的关注。【课程收益】1、数据可视化技术概述及培训关键点概述；2、数据挖掘与可视化工具介绍；3、可视化案例分享【课程特点】数据可视化技术概述及培训关键点概述，数据挖掘与可视化工具介绍（SAS、Project、Excel、SPSS、Tableau等），可视化案例分享等内容。【课程对象】 数据分析师、技术经理、产品经理、产品助理等 将承担数据分析师职责的业务人员或信息化人员 希望加强数据分析能力的软件开发人员 系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】 具有2年以IT部门工作经验，将负责数据分析等相关任务的技术人员【课程大纲】（2天*8小时）时间内容案例实践与练习Day1数据可视化技术概述及培训关键点概述数据可视化问题剖析（深入大数据时代数据可视化存在的问题）大数据特征vs数据可视化传统数据可视化问题剖析传统数据可视化工具特点剖析数据可视化概述（介绍数据可视化工具、特征及基础架构）数据可视化概念数据可视化作用数据可视化目标数据可视化应用数据维度和指标图表产生过程可视化的表现形式可视化的显示可视化的色彩可视化案例实战：仪表盘制作标准图表的表现能力标准图表的选择标准图表制作原则可视化案例实战：数据占比柏拉图绘制可视化的决定性因素数据可视化技巧数据化可视化工具创意性数据可视化虚拟实现技术防止过度可视化一图胜千言可视化的升华：声音可视化的探索性分析和数据挖掘工具（学习可视化数据挖掘工具）TableauExcelEChartsQlikViewR语言PythonSPSSSAS 数据可视化图表详解（通过实例讲述数据可视化方法、过程及含义）散点图雷达图条形图柱形图饼图直方图箱线图QQ图柏拉图制作仪表盘制作玫瑰图制作热力图制作地图制作文字云制作案例剖析案例练习：通过仪表盘制作案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：仪表盘制作Day2数据挖掘与可视化工具介绍（SAS、Project、Excel、SPSS、Tableau等），可视化案例分享 Tableau简介Tableau历史与趋势剖析Tableau使用Tableau的数据类型介绍Tableau的数据结构介绍Tableau数据的读入和输出Tableau数据库的读/写Tableau与Kylin集成定性变量离散变量连续变量多元变量日期和时间数据的操作处理数据可视化应用场景，具体案例分析淘宝24小时生活数据可视化案例无线淘宝数据可视化案例Google公司数据可视化案例Facebook用户画像可视化案例个人用户画像案例大数据可视化呈现ECharts实战（通过一个完整的实例讲述使用ECharts数据可视化的过程与方法）Echarts使用项目案例Echarts概述ECharts特性ECharts架构图整合How to use？Step1. 引入模块加载器Step2. 设置具备大小的DomStep3. 配置echarts模块路径Step4.动态加载echartsoption的使用InterfacesetOptionOption全局属性titlelegenddataRangetoolboxdataZoomgridxAxis/yAxis/axiscolor数值型类目型tooltip.formatterseries高度个性化其它参考图形热力图社交网络分析结果呈现和分析报告撰写合理的数据呈现报告分析模板如何撰写一份优秀的数据分析报告案例研讨：通过淘宝24小时生活数据可视化案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：淘宝24小时生活数据可视化案例课程9：Python与数据分析实战-13天【匹配关键知识点】Python语言入门，Python网络编程、爬虫与机器学习，Python数据分析案例分享，基于spark集群的python数据分析实战等内容。【课程时间】13天（8小时/天）【课程简介】随着大数据时代的快速到来，以及大数据在生产生活中迅速应用，大数据领域如雨后春笋般的出现大量的新技术，如Hadoop、Spark等技术，其中Python语言已经成为大数据技术中最为重要的一部分，被越来越多的企业所使用。Python语言的功能涵盖了大数据领域的数据处理、统计分析、数据挖掘、机器学习、人工智能、大数据应用开发等各种不同类型的计算操作，应用范围广泛、前景非常广阔。本课程是尹老师多年工作经验的总结和归纳，从实际业务案例为入口，使学员从理论层到实操层面系统的学习数据处理技术，使学员深入理解Python语言等数据分析工具。通过本课程的学习，学员即可以正确的分析企业的数据，为管理者、决策层提供数据支撑。【课程收益】1、Python语言入门；2、Python网络编程；3、Python网络爬虫；4、Python机器学习；5、Python数据分析案例分享；6、基于spark集群的python数据分析实战；【课程特点】Python语言入门，Python网络编程、爬虫与机器学习，Python数据分析案例分享，基于spark集群的python数据分析实战等内容。【课程对象】 数据分析师、技术经理、产品经理、产品助理等 将承担数据分析师职责的业务人员或信息化人员 希望加强数据分析能力的软件开发人员 系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】 具有2年以IT部门工作经验，将负责数据分析等相关任务的技术人员【课程大纲】（13天*8小时）时间内容案例实践与练习Day1~Day3Python语言入门Python语言基础知识（介绍Python语言基础知识，包括Python语言数据类型、基础概念等）Python语言历史与趋势剖析Python语言安装如何运行Python程序PyCharm开发环境介绍Anaconda3开发环境介绍（以Anaconda3作为程序演示环境，Python3作为演示语言）Python语言help()命令Python基本命令变量(Variables)表达式(Expressions)基本数据类型字符串与正则表达式Python条件表达式循环（loops）案例实战：正则表达式在爬虫中应用实例Python数据结构Python创建数组Python矩阵运算Python语言语法结构案例：Python语言实现运营商数据分析处理 Python函数（深入Python函数的编写语言）Python函数介绍数据分析与建模过程Python语言定义函数规则Python语言自定义函数Python匿名函数Python内置函数Python函数案例 Python类（class）（深入剖析Python类的原理）类（class）介绍Python多重继承Python不支持函数重载Class and Instance VariablesMethod ObjectsPython类编写案例实战 Python异常处理(Exceptions)（深入剖析Python异常处理）异常处理(Exceptions)简介Python标准异常类Python异常类编程案例实战（爬虫实例） Python模块 (Modules)（深入剖析模块 (Modules)）Python模块 (Modules)介绍Python自定义模块Python模块的导入与添加Python标准函数库模块Python第三方模块 Python文件读写（深入剖析Python文件读写）Python文件读写简介Python读写方法介绍Python读写文本文件Python读写二进制文件Python读写json文件Python读写xml文件 Python操作关系型数据库（深入剖析Python操作关系型数据）Python2安装MySQL Connector Python3安装MySQL ConnectorPython语言操作数据库Python语言数据库优化案例：Python语言实现话务数据时间序列建模案例练习：通过Python语言实现运营商数据分析处理案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：Python语言实现运营商数据分析处理Day4～Day5Python网络编程多线程编程 (用实战实例介绍如何实现多线程) Python开发多线程的原理多线程创建线程锁网络应用程序编程实例：比如生成发送电子邮件 Python网络编程（介绍Python网络编程）TCP/IP网络介绍Socket基础知识Socket客户端服务器连接案例：聊天功能实战 Python Web开发实战（介绍Python Web实战）Python Web开发Django框架介绍定义和使用模型Django MVC架构Django开发环境搭建Django Session应用Django框架应用Django高级应用案例：客户通话历史记录查询案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：网络编程Day6~Day7Python网络爬虫 Python基础知识和网络程序基础知识（介绍Python基础知识和网络程序基础知识）Python语言简介Python开发环境搭建和选择IO编程进程和多线程基础知识网络编程和TCP协议 Web前端基础知识（介绍Web前端基础知识）Web程序的结构Web前端的内容HTMLCSSJavaScriptXPathJsonHTTP协议标准HTTP头和主体Cookie信息网络爬虫基础知识（介绍网络爬虫基础知识）网络爬虫概述网络爬虫及其应用网络爬虫结构HTTP请求的Python实现urllib2/urllib实现httplib/urllib实现更人性化的Requests HTML解析（HTML解析原理介绍）初识Firebug安装和配置Firebug正则表达式基本语法与使用Python中使用正则表达式BeautifulSoup概述安装和配置BeautifulSoupBeautifulSoup的使用lxml的XPath解析基本的爬虫程序开发（介绍基本的爬虫程序开发）基础爬虫架构及运行流程URL管理器HTML下载器HTML解析器数据存储器爬虫调度器协议分析（协议分析）Web端协议分析网页登录POST分析隐藏表单分析加密数据分析验证码问题IP代理Cookie登录传统验证码识别人工打码滑动验证码PC客户端抓包分析HTTPAnalyzer简介虾米音乐PC端API实战分析App抓包分析Wireshark简介酷我听书App端API实战分析API爬虫：爬取mp3资源信息 Scrapy爬虫框架（介绍Scrapy爬虫框架）Scrapy爬虫架构安装Scrapy创建cnblogs项目创建爬虫模块定义Item翻页功能构建ItemPipeline内置数据存储启动爬虫强化爬虫调试方法异常控制运行状态ItemLoaderItem与ItemLoader输入与输出处理器ItemLoaderContext?请求与响应下载器中间件Spider中间件扩展突破反爬虫案例研讨：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：网络爬虫的实现Day8Python的NumPy模块NumPy 安装NumPy Ndarray 对象NumPy 数据类型NumPy 数组属性NumPy 创建数组NumPy 从已有的数组创建数组NumPy 从数值范围创建数组NumPy 切片和索引NumPy 高级索引NumPy 广播(Broadcast)NumPy 迭代数组Numpy 数组操作NumPy 位运算NumPy 字符串函数NumPy 数学函数NumPy 算术函数NumPy 统计函数NumPy 排序、条件刷选函数NumPy 字节交换NumPy 副本和视图NumPy 矩阵库(Matrix)NumPy 线性代数NumPy IONumPy Matplotlib案例练习：通过NumPy的案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：NumPy的数据处理Day9Python的Pandas模块Pandas环境安装配置Pandas数据结构Pandas快速入门Pandas系列Pandas数据帧（DataFrame）Pandas面板（Panel）Pandas基本功能Pandas描述性统计Pandas函数应用Pandas重建索引Pandas迭代Pandas排序Pandas字符串和文本数据Pandas选项和自定义Pandas索引和选择数据Pandas统计函数Pandas窗口函数Pandas聚合Pandas缺失数据Pandas分组（GroupBy）Pandas合并/连接Pandas级联Pandas日期功能Pandas时间差（Timedelta）Pandas分类数据Pandas可视化Pandas IO工具Pandas稀疏数据Pandas注意事项＆窍门Pandas与SQL比较案例练习：通过Pandas使用案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：Pandas的使用方法Day10Python机器学习Python平台下的机器学习开发技术（介绍Python平台下的机器学习开发技术）Python平台下的数据分析工具Python平台下的数据分析工具概述NumPy数据处理NumPy案例Scipy数值计算SymPy符号处理Matplotlib绘制图表Pandas数据分析、探索工具Pandas的DataFrameDataFrame的构造StatsModels数据统计建模分析Scikit-Learn机器学习库Keras人工神经网络Keras的设计原则Gensim文本挖掘库OpenCV计算机视觉库案例：Python语言实现基于聚类的图像分割方法案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：Python语言实现基于聚类的图像分割方法Day11Python机器学习聚类模型原理与实现（深入剖析聚类原理以及通过Python语言实现聚类算法模型）聚类介绍聚类算法应用场景聚类算法应用案例样品间相近性的度量快速聚类法快速聚类法的步骤用Lm距离进行快速聚类谱系聚类法类间距离及其递推公式谱系聚类法的步骤变量聚类K-Means(K均值)聚类均值漂移聚类基于密度的聚类方法(DBSCAN)用高斯混合模型（GMM）的最大期望（EM）聚类凝聚层次聚类图团体检测(Graph Community Detection)案例：Python语言聚类实现及绘图案例：Kmeans应用案例剖析课堂实操：Python语言实现基于聚类的图像分割方法决策树模型原理与实现（深入剖析决策树原理以及通过Python语言实现决策树模型）决策树介绍决策树应用场景决策树应用案例信息熵ID3算法C4.5算法CART算法决策树算法剪枝过拟合与调参决策树算法原理决策树法的决策过程案例：Python语言实现决策树模型课堂实操：Python语言实现决策树模型随机森林案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨： Python语言实现基于聚类的图像分割方法Day12Python数据分析案例分享随机森林模型原理与实现（深入剖析随机森林原理以及通过Python语言实现随机森林模型）随机森林介绍随机森林的特点随机森林的相关基础知识信息、熵以及信息增益的概念随机森林的生成随机森林算法随机森林算法原理袋外错误率（oob error）随机森林应用场景随机森林应用案例案例：Python语言实现随机森林模型课堂实操：Python语言实现随机森林模型xgboost 支持向量机模型原理与实现（深入剖析支持向量机算法原理以及通过Python语言实现支持向量机模型）支持向量机介绍支持向量机应用场景支持向量机应用案例支持向量机算法支持向量机算法原理线性可分支持向量机间隔最大化和支持向量对偶问题求解柆格朗日函数非线性支持向量机和核函数超平面线性核多项式核高斯核拉普拉斯核sigmiod核线性支持向量机（软间隔支持向量机）与松弛变量松驰因子案例：Python语言实现支持向量机模型课堂实操：Python语言实现基于SVM的字符识别方法神经网络模型原理与实现（深入剖析神经网络算法原理以及通过Python语言实现神经网络模型）神经网络介绍神经网络概念神经网络发展历史神经网络的别名神经网络研究的主要内容神经网络基本构成神经网络模拟人的智能行为的四个方面神经网络的特点学习能力适应性问题神经网络基本网络模型单层网络多层网络循环网络基本网络结构特点典型训练算法运行方式典型问题解决方法感知机线性神经网络BP神经网络RBF网络竞争网络反馈神经网络随机神经网络遗传算法PSO与神经网络优化自定义深度神经网络结构深度神经网络的优化方法深度框架的

刘晖：大数据分析实战-Spark编程

课程概要

适用对象

课程介绍

刘晖老师的其他课程

相关课程

添加企业微信