让一部分企业先学到真知识!

刘晖:大数据分析平台系统培训课程

刘晖老师刘晖 注册讲师 204查看

课程概要

培训时长 : 40天

课程价格 : 扫码添加微信咨询

课程分类 : 数据分析

课程编号 : 17754

面议联系老师

适用对象

大数据技术相关人员

课程介绍

(1)培训背景

大数据应用技术经过最近几年的爆发性发展,已经在各行各业产生了广泛而深刻的影响,但是我们仍然面对三大挑战:

1. 人才缺口巨大。需要大量的工程师从其他方向转型投入到大数据方向上来,他们有基础、有经验,但是缺乏人工领域的专业知识,需要为他们在数据,算法,算力等多个层面上给予系统的指导,以便这些工程师尽快投入到大数据开发的工作中来。

2. 从技能本身的角度来看,大数据是综合交叉学科,以数据为基础,算法为核心,业务理解和编程实现为手段,如何利用这些技术给我们和客户带来最大的价值,业界大多数人仍然对此没有深入的认识,而这些问题是关系到竞争力和价值创造的核心问题。

3. 大数据业务落地应用效果产出的核心是大数据平台开发技术,如何掌握大数据平台开发语言更好的解决我们的业务问题,关系到我们业务价值的快速实现。

 

(2)培训目标

从解决客户实际问题出发,该人才培养方案的从三个角度做出了创新:

1. 内容深度上的创新,在过去的十年,整个IT技术栈,从底层存储和计算到上层机器学习应用实现,大数据分布式存储和分布式并行计算框架及应用都做了很多的改变。因此,我们相比传统的大数据课程,增加了计算机组成、操作系统和集群技术的内容,同时在上层增加了大数据应用架构、业务应用场景和最佳实践案例的内容。

2. 内容广度上的创新,IT技术发展至今,“生态”二字越来越重要,尤其是当我们探讨大数据落地应用的时候,更不能离开生态孤立地讨论大数据技术。本课程将基于授课讲师强大的专业背景和丰富的实战经验,结合大数据技术、数据、业务场景等来讲授大数据的应用模式,课程结合业务项目一起跟进如何落地实现。

3. 从形式上,除了常规理论讲授与实际操作以外,我们还引入结合客户实际需求进行小组研讨、专家评审和相关项目案例引入的方式,将人才培养进一步落到实处,最大能力帮助客户提升能力,助力战略转型。

 

(3)教学计划

本系列课程总共由9门课程组成:

教学设计

NO.

课程名称

课程天数

基础与概述

1

大数据技术基础与应用

1天

2

Java语言入门

2天

3

Linux基础

1天

4

大数据基础理论与算法入门

7天

核心技术讲解及实际案例实操

5

Hadoop生态系统

7天

6

Spark生态系统

8天

7

大数据流式处理技术入门

5天

8

大数据可视化

2天

大数据平台搭建

9

大数据平台搭建案例分享与实践

7天

 

         第1-4门课属于基础与概述,分别从技术基础,Java,Linux及基础理论算法进行针对性基础知识加固。

         第5-9门课程就Hadoop系统、Spark系统、流式计算三大核心技术详细讲解,期间穿插实际案例讲解如何基于这些技术搭建企业级应用及开发实践。

    整个课程体系及授课有全栈大数据专家讲师全程落地,确保每个模块的深入落地及模块之间的衔接连贯,行成体系的综合开发技能       

(4)具体课程方案(含课程大纲)

课程1:大数据技术基础与应用-1天

【匹配关键知识点】

大数据概述,大数据行业应用解析(PI)等内容。

【课程时间】

1天(6小时/天)

【课程简介】

本课程通过对大数据技术的时代背景和业务应用场景实践案例介绍大数据技术涉及的基础技术和典型应用场景,为学员学习大数据技术明确学习方向和目标。

【课程收益】

1、了解大数据技术的时代背景

2、了解大数据技术的商业价值

3、掌握大数据涉及的基本技术及应用

【课程特点】

通过“知识地图”和 “沙盘演练”帮助学员“边干边学”,提升其行动学习能力:

● 采用“知识地图”形成持续学习网络

“知识地图”分共三级:一级是领域知识一览图(思维导图);二级是高度提炼的知识内容要点(PPT);三级是中外优质资源的知识原文出处(网站链接) 。

通过 “知识地图”,帮助学员构建持续学习网络,使其对大数据架构“领域知识”一览无余,“前沿动态”实时掌握!

● 通过“沙盘演练”在实战中学习

课堂没有冗长乏味的理论讲授,而是通过“沙盘演练”,用实战串讲知识,用演练提升能力,助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军,并具备在行动中学习的能力。

● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作,也可以在线登录老师自主开发的大数据实战平台在线操作。

【课程对象】

大数据技术相关人员

【学员基础】

无前置课程要求

【课程大纲】(1天*6小时)

时间

内容

案例实践与练习

Day1

上午

第一篇

大数据概述

一、大数据时代背景

二、大数据业务应用场景

三、大数据在各行业最佳实践案例

案例讨论:大数据行业应用价值

Day1

下午

第二篇  大数据行业应用解析

一、大数据处理技术发展趋势

二、大数据主要存储技术介绍

三、大数据主要计算技术介绍

案例分析: 大数据与传统存储计算技术的关系

 

 

课程2:Java语言入门-2天

【匹配关键知识点】

Java概述与环境搭建,Java数据类型与运算符及语法等内容。

【课程时间】

2天(6小时/天)

【课程简介】

本课程通过Java基本开发语言的介绍,帮助学员掌握Java的核心原理和开发方法,并利用Java进行应用开发。培训实践与理论并重,通过理论讲解,实例分析,以及对关键技术的实操练习,从而帮助学员深刻理解Java核心原理和提升学员在工作中的实践技能。。

【课程收益】

1、了解Java的核心编程

2、了解大数据技术的商业价值

3、掌握大数据涉及的基本技术及应用

【课程特点】

通过“知识地图”和 “沙盘演练”帮助学员“边干边学”,提升其行动学习能力:

● 采用“知识地图”形成持续学习网络

“知识地图”分共三级:一级是领域知识一览图(思维导图);二级是高度提炼的知识内容要点(PPT);三级是中外优质资源的知识原文出处(网站链接) 。

通过 “知识地图”,帮助学员构建持续学习网络,使其对大数据架构“领域知识”一览无余,“前沿动态”实时掌握!

● 通过“沙盘演练”在实战中学习

课堂没有冗长乏味的理论讲授,而是通过“沙盘演练”,用实战串讲知识,用演练提升能力,助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军,并具备在行动中学习的能力。

● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作,也可以在线登录老师自主开发的大数据实战平台在线操作。

【课程对象】

大数据技术相关人员

【学员基础】

具备初步的IT基础知识

【课程大纲】(2天*6小时)

时间

内容

案例实践与练习

Day1

上午

第一篇

java  语言概述

一、java  语言概述

二、java  应用场景

三、java  发展历史

案例讨论:大数据行业应用价值

Day1

下午

第二篇  java 语言基础

一、 java编译原因

二、 基本的数据结构

三、

案例练习: java基础开发

Day2

上午

第三篇

java  面向对象开发

一、 类及对象

二、 识别类及类之间关系

三、 Java类库中的GregorianCalendar类

案例练习:面向对象开发

Day2

下午

第四篇  java 开发应用

一、 图形程序设计基础

二、 创建框架及框架定位

三、 部署应用程序和applet

案例练习:java 开发应用

 

课程3:Linux基础-1天

【匹配关键知识点】

Linux概念及简单操作等内容。

【课程时间】

1天(6小时/天)

【课程简介】

本课程通过Linux系统体系及命令的介绍,帮助学员掌握Linux的核心原理和管理开发方法。培训实践与理论并重,通过理论讲解,实例分析,以及对关键技术的实操练习,从而帮助学员深刻理解Linux核心原理和提升学员在工作中的实践技能。。

【课程收益】

1、了解Linux核心原理

2、了解Linux的系统体系功能

3、掌握Linux的基本命令及应用

【课程特点】

通过“知识地图”和 “沙盘演练”帮助学员“边干边学”,提升其行动学习能力:

● 采用“知识地图”形成持续学习网络

“知识地图”分共三级:一级是领域知识一览图(思维导图);二级是高度提炼的知识内容要点(PPT);三级是中外优质资源的知识原文出处(网站链接) 。

通过 “知识地图”,帮助学员构建持续学习网络,使其对大数据架构“领域知识”一览无余,“前沿动态”实时掌握!

● 通过“沙盘演练”在实战中学习

课堂没有冗长乏味的理论讲授,而是通过“沙盘演练”,用实战串讲知识,用演练提升能力,助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军,并具备在行动中学习的能力。

● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作,也可以在线登录老师自主开发的大数据实战平台在线操作。

【课程对象】

大数据技术相关人员

【学员基础】

具备初步的IT基础知识

【课程大纲】(1天*6小时)

时间

内容

案例实践与练习

Day1

上午

第一篇

Linux系统基础

一、 开源历史、Linux系统的种类及优势特性

二、 常用的Linux系统命令及内核原理

三、 Linux系统RPM、Yum及守护进程机制理论

案例练习:Linux系统命令

Day1

下午

第二篇  Linux系统命令

一、 Linux系统命令Shell脚本原理及作用,环境变量的作用

二、 Linux系统内核与BASH解释器的关系

三、 Linux用户管理文件管理进程管理

案例练习:用户管理文件管理进程管理实战演练

 

课程4:大数据基础理论与算法入门-7天

【匹配关键知识点】

数理统计基础理论, SQL语法与应用实战 ,数据建模基础理论,数据预处理、探索性数据分析,数据采集、抽样和预测,SVM算法、决策树算法、聚类算法、贝叶斯算法、回归算法等内容。

【课程时间】

7天(6小时/天)

【课程简介】

本课程通过大数据基础理论与算法的介绍,帮助学员掌握大数据大数据基础理论与算法基础。培训实践与理论并重,通过理论讲解,实例分析,以及对关键技术的实操练习,从而帮助学员深刻理解大数据基础理论与算法应用和提升学员在工作中的实践技能。

【课程收益】

1、了解大数据基础理论及应用场景

2、了解大数据核心算法原理

3、掌握大数据平台基础理论与算法应用开发

【课程特点】

通过“知识地图”和 “沙盘演练”帮助学员“边干边学”,提升其行动学习能力:

● 采用“知识地图”形成持续学习网络

“知识地图”分共三级:一级是领域知识一览图(思维导图);二级是高度提炼的知识内容要点(PPT);三级是中外优质资源的知识原文出处(网站链接) 。

通过 “知识地图”,帮助学员构建持续学习网络,使其对大数据架构“领域知识”一览无余,“前沿动态”实时掌握!

● 通过“沙盘演练”在实战中学习

课堂没有冗长乏味的理论讲授,而是通过“沙盘演练”,用实战串讲知识,用演练提升能力,助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军,并具备在行动中学习的能力。

● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作,也可以在线登录老师自主开发的大数据实战平台在线操作。

【课程对象】

大数据技术相关人员

【学员基础】

具备初步的IT基础知识

【课程大纲】(7天*6小时)

时间

内容

第一天

第1个主题:概率论与数理统计入门(目的:掌握必备的概率论与数理统计相关入门知识,为下个主题的深入讲解打好基础)

  1. 聊聊概率这件事
  2. 什么是随机变量
  3. 什么是概率分布
  4. 什么是古典概型
  5. 联合概率与边缘概率
  6. 乘法与全概率公式
  7. 贝叶斯公式介绍
  8. 独立性与独立事件
  9. 课堂实操:概率统计各种相关类型习题讲解,由浅入深探索概率统计在各种业务/项目上的应用。
第二天

第2个主题:离散值的概率分布(目的:掌握离散值的概率分布相关知识点,包括伯努利、二项、方差等关键核心内容 )

  1. 定义与分布律介绍
  2. 离散型随机变量介绍
  3. 伯努利、二项及泊松分布
  4. 期望值及其计算方法
  5. 方差与标准差介绍
  6. 大数定理介绍

课堂实操:概率统计各种相关类型习题讲解,由浅入深探索概率统计

第3个主题:SQL语法与应用实战(目的:掌握SQL语法及数据库实战应用)

  1. SQL概述
  2. 数据库基本操作
  3. 数据类型和约束条件
  4. 数据填充与数据导入
  5. 查询操作符与子查询
  6. SQL查询函数介绍
  7. 课堂实操:动手实际实现客户订单查询案例
第三天

第4个主题:数据预处理(目的:掌握数据预处理的流程及方法)

  1. 数据审核
  2. 数据筛选
  3. 数据排序
  4. 数据清洗
  5. 数据集成
  6. 数据变换
  7. 数据归约
  8. 课堂实操: 合并不同数据源数据、缺失值与异常值处理、数据标准化处理、Matplotlib绘图

第5个主题:数据分析入门(目的:数据分析简介)

  1. 数据分析概述
  2. 数据分析开发环境搭建
  3. 数据分析学习技巧
  4. 课堂实操: 量化炒股实例、python常用科学计算
第四天

第6个主题:Numpy与Pandas(目的:掌握数据处理常用库的使用)

  1. [Numpy]基本概述
  2. [Numpy]多维数据对象
  3. [Numpy]元素级别处理函数
  4. [Numpy]使用数组进行数据处理
  5. [Numpy]文件输入输出
  6. [Numpy]线性代数相关知识
  7. [Pandas]基本数据结构
  8. [Pandas]索引、选取、过滤、排序等
  9. [Pandas]汇总和计算描述统计
  10. [Pandas]缺失数据处理
  11. [Pandas]层次化索引
  12. 课堂实操: 数据处理及统计案例练习
第五天

第7个主题:大数据算法基础(目的:深入机器学习核心,掌握相关理论知识)

  1. K最邻近算法
  2. 朴素贝叶斯
  3. 线性回归
  4. 梯度下降
  5. 最大似然估计
  6. 多重回归模型
  7. Logistic回归
  8. Logistic函数介绍
  9. 支持向量机
  10. 课堂实操: 算法练习
第六天

第8个主题:大数据算法基础(目的:掌握核心算法以及了解机器学习相关的热门实现)

  1. 什么是决策树
  2. 什么是熵
  3. 神经网络的感知机
  4. 前向传播神经网络
  5. 什么是聚类
  6. K均值算法
  7. 自然语言处理
  8. 推荐系统介绍
  9. 课堂实操: 实现机器学习相关完整案例
第七天

第9个主题:大数据算法实战训练(目的:带领学员完成大量的实战案例,巩固所学知识)

  1. 课堂实操:深度学习热门框架实战
  2. 课堂实操:花朵分类
  3. 课堂实操:目标检测
  4. 课堂实操:垃圾邮件处理
  5. 课堂实操:金融数据分析
  6. 课堂实操:  kaggle竞赛实例

 

课程5:Hadoop生态系统-7天

【匹配关键知识点】

HDFS使用操作, MapReduce开发 ,yarn原理和应用,Hbase数据库开发,Hive数据仓库开发,Scala入门等内容。

【课程时间】

7天(6小时/天)

【课程简介】

本课程通过Hadoop系统体系及命令的介绍,帮助学员掌握Hadoop的核心架构原理和管理开发方法。培训实践与理论并重,通过理论讲解,实例分析,以及对关键技术的实操练习,从而帮助学员深刻理解Hadoop生态系统及开发应用和提升学员在工作中的实践技能。

【课程收益】

1、了解Hadoop生态系统及应用场景

2、了解Hadoop生态系统的核心功能和架构

3、掌握Hadoop生态系统组件的基本命令及应用

【课程特点】

通过“知识地图”和 “沙盘演练”帮助学员“边干边学”,提升其行动学习能力:

● 采用“知识地图”形成持续学习网络

“知识地图”分共三级:一级是领域知识一览图(思维导图);二级是高度提炼的知识内容要点(PPT);三级是中外优质资源的知识原文出处(网站链接) 。

通过 “知识地图”,帮助学员构建持续学习网络,使其对大数据架构“领域知识”一览无余,“前沿动态”实时掌握!

● 通过“沙盘演练”在实战中学习

课堂没有冗长乏味的理论讲授,而是通过“沙盘演练”,用实战串讲知识,用演练提升能力,助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军,并具备在行动中学习的能力。

● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作,也可以在线登录老师自主开发的大数据实战平台在线操作。

【课程对象】

大数据技术相关人员

【学员基础】

学习完Java,Linux和大数据基础理论和应用前置课程

【课程大纲】(7天*6小时)

时间

内容

案例实践与练习

Day1

上午

第一篇

大数据Hadoop技术架构

一、Hadoop在云计算技术的作用和地位,

二、Hadoop的基础概念、数据管理、特性

三、Hadoop集群及架构原理

案例练习:Hadoop集群管理命令

Day1

下午

第二篇  Hadoop组件详解:HDFS

一、HDFS特征及读写文件

二、NameNode的考虑

三、HDFS安全概览

案例练习:HDFS基础命令

Day2

上午

第三篇

Hadoop组件详解:HDFS

一、运用 Hadoop文件Shell

二、利用Flume 从外部源摄取数据

三、利用Sqoop从关系数据库摄取数据

案例练习:HDFS脚本及接口命令

Day2

下午

第四篇  Hadoop的计算框架

一、MapReduce原理及特征

二、YARN2.0架构与原理

三、Zookeeper和YARN2.0关系

案例练习:MapReduce运行及调度

Day3

上午

第五篇

SQOOP核心原理架构

一、SQOOP原理及特征

二、SQOOP开发应用

三、SQOOP和Hadoop关系

案例练习:SQOOP开发

Day3

下午

第六篇  zookeeper应用实战

一、zookeeper原理及特征

二、zookeeper架构与应用

三、Zookeeper和Hadoop关系

案例练习:Zookeeper集群管理命令

Day4

上午

第七篇

Hbase核心原理架构

一、HBase原理及特征

二、HBase and RDBMS

三、HBase Shell

案例练习:HBase Shell命令

Day4

下午

第八篇 Hbase应用实战

一、创建表

二、HBase 的ROWKEY设计

三、Hbase的优化设计

案例练习:HBase  优化设计

Day5

上午

第九篇

Hive简介

一、Hive模式和数据存储

二、Hive与传统数据库的比较

三、Hive应用案例

案例练习:Hive模式及管理命令

Day5

下午

第十篇  Hive 基础开发

一、HQL基础DDL编程

二、HQL基础DML编程

三、HQL实现关联操作

案例练习:Hive  基础开发

Day6

上午

第十一篇

Hive模型开发

一、Hive管理的各中表与模型应用

二、装载数据进入Hive 

三、Hive维度模型开发应用

案例练习:Hive模型开发

Day6

下午

第十二篇  Hive与Flume,SQOOP组合应用

一、Flume装载数据进入Hive 

二、SQOOP装载数据进入Hive

三、Hive开发与Hadoop关系

案例练习:Hive接口开发

Day7

上午

第十三篇

Scala基础

一、Scala基础知识

二、Scala常用集合

三、Scala应用场景

案例练习:Scala基础开发

Day7

下午

第十四篇  Scala开发应用

一、函数对象

二、编程实例

三、Scala高级开发应用

案例练习:Scala开发应用

 

课程6:Spark生态系统-8天

【匹配关键知识点】

Spark生态系统概述及培训关键点概述 ,Spark SQL开发,Spark Streaming/Spark Mllib/ Spark Graphx开发等内容。

【课程时间】

8天(6小时/天)

【课程简介】

本课程通过Spark系统体系及命令的介绍,帮助学员掌握Spark的核心架构原理和管理开发方法。培训实践与理论并重,通过理论讲解,实例分析,以及对关键技术的实操练习,从而帮助学员深刻理解Spark生态系统及开发应用和提升学员在工作中的实践技能。

【课程收益】

1、了解Spark生态系统及应用场景

2、了解Spark生态系统的核心功能和架构

3、掌握Spark生态系统组件的基本命令及应用

【课程特点】

通过“知识地图”和 “沙盘演练”帮助学员“边干边学”,提升其行动学习能力:

● 采用“知识地图”形成持续学习网络

“知识地图”分共三级:一级是领域知识一览图(思维导图);二级是高度提炼的知识内容要点(PPT);三级是中外优质资源的知识原文出处(网站链接) 。

通过 “知识地图”,帮助学员构建持续学习网络,使其对大数据架构“领域知识”一览无余,“前沿动态”实时掌握!

● 通过“沙盘演练”在实战中学习

课堂没有冗长乏味的理论讲授,而是通过“沙盘演练”,用实战串讲知识,用演练提升能力,助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军,并具备在行动中学习的能力。

● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作,也可以在线登录老师自主开发的大数据实战平台在线操作。

【课程对象】

大数据技术相关人员

【学员基础】

学习完Java,Linux和大数据基础理论和应用前置课程

【Spark生态系统系统课程大纲】(8天*6小时)

时间

内容

案例实践与练习

Day1

上午

第一篇

Spark生态系统

一、Spark发展历史及简介

二、Spark业务应用场景

三、Spark与Hadoop系统关系

案例讨论:Spark与Hadoop系统关系

Day1

下午

第二篇  Spark原理架构

一、Spark原理及特征

二、Spark架构及组件应用场景

三、Spark接口及应用场景

案例讨论:Spark接口及应用场景

Day2

上午

第三篇

Spark数据结构

一、RDD基础

二、转换操作与执行操作

三、共享变量

案例练习:RDD基础开发操作

Day2

下午

第四篇  Spark计算模型

一、Spark计算框架原理及特征

二、Spark架构与应用

三、Spark之宽窄依赖和DAG调度

案例练习:Spark计算模型及运行日志查看

Day3

上午

第五篇

Spark调度模型

一、Spark资源调度原理及特征

二、Spark资源调度架构及应用

三、Spark资源调度基于Hadoop

案例练习:Spark调度命令

Day3

下午

第六篇  Spark接口开发

一、Spark生态系统接口介绍

二、Spark生态系统接口与Hadoop

三、Spark生态系统接口与大数据分析

案例练习:Spark接口开发

Day4

上午

第七篇

Spark SQL基础开发

一、Spark SQL原理与架构

二、Hive SQL与Spark SQL 

三、Spark SQL开发应用

案例练习:Spark SQL基础开发

Day4

下午

第八篇 Spark SQL模型开发

一、Spark SQL与Hive

二、Spark SQL与模型构建

三、Spark SQL与数据挖掘分析

案例练习:Spark SQL模型开发

Day5

上午

第九篇

Spark Streaming开发

一、Spark Streaming基本原理

二、Spark Streaming开发基础

三、Spark Streaming开发应用

案例练习:Spark Streaming开发

Day5

下午

第十篇 Spark Mllib开发

一、Spark ML读取数据

二、Spark ML对数据进行探索

三、Spark ML训练模型

案例练习:Spark Mllib开发

Day6

上午

第十一篇

Spark Mllib开发

一、Spark ML组装任务

二、Spark ML评估、优化模型

三、Spark Mllib开发

案例练习:Spark Mllib开发

Day6

下午

第十二篇  Spark Graphx应用

一、Spark GraphX 的核心代码剖析

二、Spark GraphX 命令方式操作

三、Spark GraphX 的客户端 API 介绍

案例练习:Spark Graphx开发

Day7

上午

第十三篇

SparkR接口开发

一、R语言基础知识

二、R语言开发基础

三、SparkR开发及应用场景

案例练习:SparkR开发

Day7

下午

第十四篇  PySpark开发应用

一、PySpark之Python基础

二、Python数据结构

三、Python循环结构

案例练习:PySpark基础开发

Day8

上午

第十五篇

PySpark开发应用

一、Python机器学习

二、基于PySpark开发Python机器学习

三、PySpark机器学习开发应用

案例练习:PySpark机器学习开发应用

Day8

下午

第十六篇  PySpark开发应用

一、Python深度学习

二、基于PySpark开发Python深度学习

三、PySpark深度学习开发应用

案例练习:PySpark深度学习开发应用

 

课程7:大数据流式处理技

刘晖老师的其他课程

• 刘晖:大数据分析(全面)系统课程
(1)培训背景随着互联网、云计算、大数据、物联网、人工智能等科技的快速发展,经济发展已经进入全球化时代,企业的命运与国际经济环境紧密联系,如美国的经济危机会波及到全球各个国家与地区和企业,国家和企业已经不是孤立的存在。在经济全球化时代商业环境极其复杂,不仅要考虑国内、国外经济环境,同时还要考虑不同国家的国家政策,不同民族的民族文化,不同宗教的宗教信仰等,更加加深入了商业环境的复杂程度。在极其复杂的国际商业环境中,作为大型企业领导者仅凭经验与智慧无法全面了解与掌控企业、了解国际化的商业环境,因此很难做出正确的企业战略决策,甚至更无法做到企业精细化管理,更不可能做到高效运营,那么,如何突破因商业环境复杂度而导致的企业失控呢?并在复杂的商业竞争环境中脱颖而出并获得最大利润呢?答案是掌握企业数据和掌握国际化数据,并建立高效的数据分析体系,探索数据、挖掘数据高效准确的获取国际化的经济环境状况,洞察市场趋势提前做出有利于企业的战略决策,提高企业竞争力,规避市场风险,数据分析则是提升企业管理水平,实现上述目标的一种行之有效的方法。国际化的竞争就是信息的国际化竞争。随着大数据、人工智能的快速发展,数据的价值越发突显,并为海量的高并发的数据分析提供了新的工具与可行性,较以往的传统数据分析工具更为有效,甚至传统数据分析工具做不到的,大数据、人工智能都能做到。因此不仅仅企业,社会各个方面也因大数据的价值而提高了对数据的关注程度,也加大了数据分析的投入力度。无论是企业管理、战略决策、精准营销、精细化管理等都无处不体现着数据分析的重要性。数据如此重要,如何建设一个高效的数据分析体系呢?至少要具备以下两个条件:一是在宏观层面上正确理解数据分析;二是丰富的IT系统建设经验、分布式技术和较强的数据技术能力。第一点尤为重要,因为一旦在思想和认识层面对数据分析体系理解有误,那么即使精通于各种技术方案,所建立起来的也只是一堆技术架构的粗糙堆砌,虽然也能达到部分数据分析的效果,但必定会事倍功半。构建数据分析体系包括四个层面:一是数据基础平台;二是数据报表与可视化;三是精细化业务分析;四是战略分析与决策。如下图为数据分析体系结构图。那么在数据基础平台建设层面,均采用大数据平台,如Hadoop、Spark等大数据平台,其好处是开源、可控,无需从零开始搭建平台节约成本;也避免了因大数据的多样性、隐私性等特点导致供应无法深入挖掘数据的问题。为什么要自建数据分析平台呢?不能采购吗?答案是不能采购,只能自建!因为数据挖掘一个持续的过程,日常企业经常过程产生的数据、市场数据都是需要分析的,是一个持续不断的工作,不是编写几个算法了事的,所以如果从供应商采购必然会导致分析工作不够深入与不够专业,数据的价值是隐藏在数据中的,需要不断的持续的挖掘才能找的,不是算法和分析工具能做到的。因此企业需要自建数据分析平台,而不采购分析工具。Hadoop、Spark生态系统是大数据技术事实标准,是大数据思想、理念、机制的具体实现,是整个大数据技术中公认的核心框架和具有极强的使用价值与研究价值。Hadoop 系统是一款开源软件,能够处理海量的各种结构(包括结构化、非结构化、半结构化)的数据。Hadoop是分布式集群框架,可以管理成百上千台x86服务器集群。基于 Hadoop 的解决方案能够帮助企业应对多种大数据挑战,包括:分析海量(PB 级或者更多)的数据Hadoop 能够分析所有数据,使得分析更准确,预测更精确;从多个数据类型的组合中获得新的洞察力将来自多个数据源的不同类型的数据进行结合分析,发现新的数据关系和洞察力;存储大量的数据由于它不依赖于高端硬件,且是可扩展的,所以使存储大量数据变得经济有效;数据发现(data discovery)和研究的沙箱Hadoop 提供了一个地方,数据科学家可在此发现新的数据关系和相互依赖性。 工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出:“2012 年美国联邦政府就在全球率先推出“大数据行动计划(Big data initiative)”,重点在基础技术研究和公共部门应用上加大投入。在该计划支持下,加州大学伯克利分校开发了完整的大数据开源软件平台“伯克利数据分析软件栈(Berkeley Data Analytics Stack),其中的内存计算软件Spark的性能比Hadoop 提高近百倍,对产业界大数据技术走向产生巨大影响”                                          ----来源:工业和信息化部电信研究院  Spark是成为替代MapReduce架构的大数据分析技术,Spark的大数据生态体系包括流处理、图技术、机器学习等各个方面,并且已经成为Apache顶级项目,可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。 国内外一些大型互联网公司已经部署了Spark,并且它的高性能已经得到实践的证明。国外Yahoo已在多个项目中部署Spark,尤其在信息推荐的项目中得到深入的应用;国内的淘宝、爱奇异、优酷土豆、网易、baidu、腾讯等大型互联网企业已经将Spark应用于自己的生产系统中。国内外的应用开始越来越广泛。Spark正在逐渐走向成熟,并在这个领域扮演更加重要的角色。 (2)培训目标本次数据分析技术培训课程,整个课程体系设计完备,思路清晰,学员通过本次课程的系统性学习可以掌握如下技能:了解数据分析基本概念及产业链,数据分析与大数据等内容;学会数据的产生、导入与预处理。掌握大数据生成与导入,数据分析流程与建模思想,数据清洗与数据加工等内容;掌握数据分析与挖掘基础。学习常见数据分析方法与数据挖掘概述,描述型数据分析,常见数据分析与挖掘算法(Kmeans、购物篮、决策树、朴素贝叶斯等)等内容。学习数据分析工具R语言的数据分析实战。学习R语言入门基础,描述性统计分析, 用R语言做数据挖掘实战等内容。介绍大数据工具之Hadoop。深入理解Hadoop原理及组件介绍,Hadoop数据分析入门等内容。介绍大数据工具之Spark。深入剖析Spark基本概念,Spark开发与数据分析等内容。编写Pyspark集群调度与数据处理程序。使用Python调度spark集群并进行数据处理等内容。学习大数据可视化技术。包括数据可视化技术概述及培训关键点概述,数据挖掘与可视化工具介绍(SAS、Project、Excel、SPSS、Tableau等),可视化案例分享等内容。学习Python与数据分析实战。包括Python语言入门,Python网络编程、爬虫与机器学习,Python数据分析案例分享,基于spark集群的python数据分析实战等内容。 通过以上的系统学习,学员会建立完整的数据知识体系,使学员正确认识大数据,掌握大数据思维方法,为工作、生活和学习打下坚实的基础,为持续成长提供原动力。下图为本次课程结束后学员获取的完整数据知识体系如下图。完整数据知识体系(3)教学计划本系列课程总共由9门课程组成:教学设计NO.课程名称课程天数基础与概述1数据分析概述1天2数据的产生、导入与预处理5天数据分析与数据挖掘核心技术讲解及案例实操3数据分析与挖掘基础6天4R语言数据分析实战6天大数据技术讲解与编程实操5大数据工具介绍之Hadoop2天6大数据工具介绍之Spark3天7Pyspark集群调度与数据处理2天大数据可视化8大数据可视化2天Python与数据分析实战9Python与数据分析实战13天          第1-2门课属于基础与概述,包括数据分析基本概念及产业链,数据分析与大数据等内容。大数据生成与导入,数据分析流程与建模思想,数据清洗与数据加工等内容。         第3-4门课程数据分析与数据挖掘核心技术讲解及案例实操,包括常见数据分析方法与数据挖掘概述,描述型数据分析,常见数据分析与挖掘算法(Kmeans、购物篮、决策树、朴素贝叶斯等)等内容。R语言入门基础,描述性统计分析, 用R语言做数据挖掘实战等内容。。         第5-7门课程主要大数据技术讲解与编程实操,包括Hadoop原理及组件介绍,Hadoop数据分析入门等内容。Spark基本概念,Spark开发与数据分析等内容。使用Python调度spark集群并进行数据处理等内容。         第8门是大数据可视化。包括数据可视化技术概述及培训关键点概述,数据挖掘与可视化工具介绍(SAS、Project、Excel、SPSS、Tableau等),可视化案例分享等内容。         第9门是Python与数据分析实战。包括Python语言入门,Python网络编程、爬虫与机器学习,Python数据分析案例分享,基于spark集群的python数据分析实战等内容。 (4)具体课程方案(含课程大纲)课程1:数据分析概述-1天【匹配关键知识点】数据分析基本概念及产业链,数据分析与大数据等内容。【课程时间】1天(6小时/天)【课程简介】本课程介绍大数据体系构建数据平台,重点内容包括数据平台基础理论、数据集成、数据维度等知识点;本课程让学员掌握基于大数据生态的数据分析知识、大数据生态体系技术选型,能够应用建模技术、大数据技术构建数据平台。随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,数据分析、数据建模、数据挖掘、机器学习等重要性越发突出,本课程是针对大数据时代的特点,尹老师总结多年数据分析经验,而精心设计的课程,课程内容涵盖了数据领域的数据处理、统计分析、数据挖掘、机器学习等内容的应用范围、发展前景剖析。【课程收益】1、数据分析基本概念及产业链等内容;2、数据分析与大数据等内容;【课程特点】数据分析基本概念及产业链,数据分析与大数据等内容【课程对象】     数据分析师、技术经理、产品经理、产品助理等     将承担数据分析师职责的业务人员或信息化人员     希望加强数据分析能力的软件开发人员     系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】     具有2年以IT部门工作经验,将负责数据分析等相关任务的技术人员【课程大纲】(1天*6小时)时间内容案例实践与练习Day1数据分析概述数据知识体系数据仓库诞生的历史背景大数据时代数据仓库的演变大数据是一套全新的思维体系纵向、横向扩容全量分析大数据是一套全新的技术体系大数据思维与传统软件思维的区别大数据的数据仓库与传统数据仓库的区别硬件成本、软件技术积累数据知识体系数据采集数据ETL数据挖掘数据可视化商务智能业务创新应用大数据生态体系介绍大数据支撑----云计算大数据核心----海量数据大数据灵魂----大数据技术大数据价值----大数据商业思维大数据企业应用障碍分析案例练习:通过大数据企业应用障碍分析案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:大数据企业应用障碍分析 课程2:数据的产生、导入与预处理-5天【匹配关键知识点】大数据生成与导入,数据分析流程与建模思想,数据清洗与数据加工等内容。【课程时间】5天(6小时/天) 【课程简介】随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如Hadoop、Spark等技术,其中Python语言已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用。Python语言的功能涵盖了大数据领域的数据处理、统计分析、数据挖掘、机器学习、人工智能、大数据应用开发等各种不同类型的计算操作,应用范围广泛、前景非常广阔。本课程是尹老师多年工作经验的总结和归纳,从实际业务案例为入口,使学员从理论层到实操层面系统的学习数据处理技术,使学员深入理解Python语言等数据分析工具。通过本课程的学习,学员即可以正确的分析企业的数据,为管理者、决策层提供数据支撑。【课程收益】1、大数据生成与导入;2、数据分析流程与建模思想;3、数据清洗与数据加工。【课程特点】大数据生成与导入,数据分析流程与建模思想,数据清洗与数据加工等内容。【课程对象】     数据分析师、技术经理、产品经理、产品助理等     将承担数据分析师职责的业务人员或信息化人员     希望加强数据分析能力的软件开发人员     系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】     具有2年以IT部门工作经验,将负责数据分析等相关任务的技术人员【课程大纲】(5天*6小时)时间内容案例实践与练习Day1数据的产生、导入与预处理数据知识体系数据采集数据ETL数据挖掘数据可视化商务智能业务创新应用数据分析挖掘的过程建立数据库的方法企业对数据分析挖掘的错误认识ETL的设计ETL的实施数据源数据采集随机抽样数据去重数据缺失值处理检验数据逻辑错误离群点检测数据转换数据分组课堂实操:数据整理的编程和应用案例练习:通过数据整理的编程和应用案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:数据整理的编程和应用Day2数据清洗与数据加工ROLAP与多维数据库OLAP与OLTP的区别多维数据库与数据仓库的关系OLAP模型搭建(多维模型)确定维度、量度与事实的关系OLAP的应用场景决策支持技术企业OLAP模型设计案例剖析数据模型设计原则与模型搭建星型架构与雪花型架构事实表与维度表的设计逻辑设计与物理设计数据模型设计的常用方法数据模型设计技巧总结数据模型分片数据模型索引数据模型粒度数据模型案例分析 案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:数据模型案例分析Day3大数据生成与导入大数据基础理论介绍大数据的生成与导入大数据技术CAP理论BASE思想消息机制分布式协调器心跳机制日志结构文件系统RWN理论跨操作系统调度资源大数据企业实践电商遇到的问题大型互联网企业遇到的问题大数据主要解决的问题实例分享:淘宝双十一实例分享:腾讯QQ实例分享:百度文库实例分享:打车大战大数据的作用Pig 设计的目标Pig Latine介绍Pig关键性技术Pig的实用案例Hive简介Hive的组件与体系架构Hive架构Hive vs RDBMSHive的高可用部署方案Hive Data TypesHive安装模式Hive安装部署Hive ShellHive API开发演示Hive中UDF和UDAFHive数据分析Sqoop简介Sqoop架构Sqoop安装Sqoop ShellFlume简介及使用Flume架构Flume数据源类型Flume收集数据2种主要工作模式电商客户日志分析大型国企大数据应用大数据架构案例分享及实战演练案例练习:通过淘宝双十一案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:淘宝双十一Day4数据分析流程数据分析基本概念数据分析算法数据分析工具数据分析流程数据分析范畴数据挖掘基本概念数据挖掘模型数据挖掘模型评估数据挖掘目标数据挖掘数据质量数据挖掘的9大定律数据挖掘发展趋势案例研讨:通过数据挖掘案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:数据挖掘Day5数据分析流程与建模思想定义挖掘目标数据取样数据探索数据预处理挖掘建模建立模型业务理解模型拟合训练集测试集模型评价企业实践案例分享案例练习:通过企业实践案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:企业实践案例分享Day5数据的统计学知识和模型回归分析贝叶斯算法聚类算法SVM决策树算法关联规则算法时间序列算法神经网络深度学习人工智能其他挖掘算法以上数据模型的应用案例剖析案例练习:通过数据模型的应用案例剖析案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:数据模型的应用案例剖析 课程3:数据分析与挖掘基础-6天【匹配关键知识点】常见数据分析方法与数据挖掘概述,描述型数据分析,常见数据分析与挖掘算法(Kmeans、购物篮、决策树、朴素贝叶斯等)等内容。【课程时间】6天(6小时/天)【课程简介】随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,数据分析、数据建模、数据挖掘、机器学习、神经网络、深度学习、人工智能等重要性越发突出,本课程是针对大数据时代的特点,尹老师总结多年数据分析经验,而精心设计的课程,课程内容涵盖了数据领域的数据处理、统计分析、数据挖掘、机器学习、神经网络、深度学习、人工智能等内容,以及人工智能的应用范围、发展前景剖析。【课程收益】1、常见数据分析方法与数据挖掘概述;2、描述型数据分析;3、常见数据分析与挖掘算法(Kmeans、购物篮、决策树、朴素贝叶斯等)等。【课程特点】常见数据分析方法与数据挖掘概述,描述型数据分析,常见数据分析与挖掘算法(Kmeans、购物篮、决策树、朴素贝叶斯等)等内容。【课程对象】     数据分析师、技术经理、产品经理、产品助理等     将承担数据分析师职责的业务人员或信息化人员     希望加强数据分析能力的软件开发人员     系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】     具有2年以IT部门工作经验,将负责数据分析等相关任务的技术人员【课程大纲】(6天*6小时)时间内容案例实践与练习Day1常见数据分析方法与数据挖掘概述数据分析与建模的概念数据分析与建模过程数据分析模型开发过程数据建模概述机器学习概念机器学习算法剖析算法库分类算法库深度学习神经网络人工智能商业智能 案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:数据分析的过程Day2描述型数据分析统计学基本概念统计数据的计量尺度常用基本统计量集中趋势的描述指标离散趋势的描述指标中心极限定理大数定律数据的分布正态分布的特征偏度和峰度检测数据集的分布数据的分布拟合检验与正态性检验抽样标准假设检验T检验置信区间 案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:描述性数据分析Day3常见数据分析与挖掘算法数据挖掘的基本任务数据挖掘建模过程定义挖掘目标数据取样数据探索数据预处理挖掘建模建立模型业务理解模型拟合训练集测试集模型评价常用的数学预测模型线性回归回归(预测)与分类决策树与随机森林聚类分析(kmeans)关联规则时序模式离群点检测深度学习人工智能神经网络案例:如何从数据中挖掘出有价值的信息案例研讨:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:常用数据分析方法与算法Day4朴素贝叶斯与回归分析主成分分析和因子分析(深入剖析主成分分析及因子分析)主成分分析总体主成分样本主成分主成分分析模型案例:主成分分析模型实现课堂实操:主成分分析模型实现 方差分析(深入剖析方差分析方法及实现)单因素方差分析单因素方差分析模型因素效应的显著性检验因素各水平均值的估计与比较两因素等重复试验下的方差分析统计模型交互效应及因素效应的显著性检验无交互效应时各因素均值的估计与比较有交互效应时因素各水平组合上的均值估计与比较两因素非重复试验下的方差分析金融案例:方差分析实现课堂实操:方差分析实现  Bayes统计分析(深入剖析Bayes统计分析)Baves统计模型Bayes统计分析的基本思想Bayes统计模型Bayes统计推断原则先验分布的Bayes假设与不变先验分布共轭先验分布先验分布中超参数的确定Baves统计推断参数的Bayes点估计Bayes区间估计Bayes假设检验案例:实现Bayes统计分析建模课堂实操:实现Bayes统计分析建模  数学建模(深入剖析数学建模)数学建模数学预测模型模型评估模型参数优化 回归分析与分类分析原理与应用(深入剖析数据的回归分析与分类分析的原理以及应用)回归与分类回归分析概念线性回归模型及其参数估计一元线性回归一元线性回归模型一元线性回归模型求解参数损失函数求偏导回归方程的显著性检验残差分析误差项的正态性检验残差图分析统计推断与预测回归模型的选取穷举法逐步回归法岭回归分析一元线性回归金融案例:一元线性回归模型检验多元线性回归概述多元线性回归模型金融案例:多元线性回归实现航空业信用打分和评级模型  Logistic回归分析(剖析Logistic回归与其它回归分析方法)Logistic回归介绍Logistic函数Logistic回归模型案例:SPSS Logistic回归实现课堂实操: Logistic回归实现航空业欺诈预测模型课堂实操: Logistic回归实现航空业风险分析模型 非线性回归原理及应用(剖析非线性回归原理及应用实践)非线性回归双曲线函数幂函数指数函数对数函数S型曲线案例:非线性回归实现课堂实操:非线性回归实现航空业经营分析和绩效分析模型案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:主成分分析模型实现Day5聚类分析与关联规则挖掘 数据建模常用距离(深入剖析数据建模过程中常用的距离模型)数据挖掘常用距离欧氏距离曼哈顿距离切比雪夫距离闵可夫斯基距离标准化欧氏距离马氏距离夹角余弦汉明距离杰卡德距离 & 杰卡德相似系数相关系数 & 相关距离信息熵 聚类分析与建模实现(深入剖析聚类分析以及通过SPSS聚类算法模型分析数据)聚类分析聚类算法样品间相近性的度量快速聚类法快速聚类法的步骤用Lm距离进行快速聚类谱系聚类法类间距离及其递推公式谱系聚类法的步骤变量聚类案例:SPSS聚类实现及绘图案例:Kmeans应用案例剖析课堂实操:编写程序实现Kmeans应用案例剖析 关联规则分析与实现(深入剖析关联规则分析以及通过SPSS关联规则算法模型分析数据)关联规则支持度与置信度关联规则挖掘的过程Apriori算法关联规则案例支持度与置信度计算案例:SPSS实现关联规则课堂实操:SPSS实现航空业数据关联规则分析案例练习:通过编写程序实现Kmeans应用案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:编写程序实现Kmeans应用案例剖析Day6决策树与随机森林 决策树分析与实现(深入剖析决策树分析以及通过SPSS决策树模型分析数据)决策树分析决策树决策树构成要素决策树算法原理决策树法的决策过程决策树算法案例:实现决策树分析课堂实操:实现航空业客户细分模型随机森林  数据建模时序模式分析与实现(深入剖析时序模式分析)时序模式时间序列分析时间序列分析时间序列序列分析的三个阶段课堂实操:实现航空业客户流失模型案例练习:通过实现航空业客户细分模型案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:实现航空业客户细分模型 课程4:R语言数据分析实战-6天【匹配关键知识点】R语言入门基础,描述性统计分析, 用R语言做数据挖掘实战等内容。【课程时间】6天(6小时/天) 【课程简介】R语言由新西兰奥克兰大学ross ihaka和robert gentleman 开发。R语言是自由软件,具有非常强大的统计分析和作图功能,而且具有非常丰富的网上资源,目前R软件有3000多种贡献包,几乎可以实现所有的统计方法,目前大部分的顶级统计学家和计量经济学家都使用R语言,而且越来越多的数据分析实务人员也开始使用R语言。学习R软件正成为一种趋势。R语言具有简单易学,功能强大,体积小(仅30M),完全免费,可自由开发等特点,且R语言和S语言语法基本相同,绝大部分程序是互相兼容的。R软件最优美的地方是它能够修改很多前人编写的包的代码做各种你所需的事情,实际你是站在巨人的肩膀上。【课程收益】1、R语言入门基础;2、描述性统计分析;3、用R语言做数据挖掘实战等内容;【课程特点】R语言入门基础,描述性统计分析, 用R语言做数据挖掘实战等内容。【课程对象】     数据分析师、技术经理、产品经理、产品助理等     将承担数据分析师职责的业务人员或信息化人员     希望加强数据分析能力的软件开发人员     系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】     具有2年以IT部门工作经验,将负责数据分析等相关任务的技术人员【课程大纲】(6天*6小时)时间内容案例实践与练习Day1R语言入门基础 R语言简介(介绍R语言工具)R语言历史与趋势剖析安装R语言RStudio使用工作空间的设置R程序包的载入与使用R资源网上查找方法介绍 R语言语法介绍(R语言基础语法介绍)R语言的数据类型介绍R语言的数据结构介绍数据的读入和输出R语言连接RDBMS数据库介绍数据库的读/写R和SQL的交互循环语句条件语句遍历常用函数常用算法定性变量离散变量连续变量多元变量对向量、矩阵和列表进行运算提取和插入元素日期和时间数据的操作处理编写自定义函数解决复杂问题编程技巧编程案例介绍案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:R语言编程Day2R语言绘图功能 R语言的绘图功能介绍(R语言的探索性分析与数据可视化)绘图函数图形增强函数图形互动函数高级绘图命令散点图柱状图直方图R语言数据预处理(R语言的数据的读取、清洗和转换)数据预处理日期和时间的处理因子变量的操作下标数据整理技术字符串操作数据子集的筛选识别重复数据和缺失值处理函数映射数据转换整理技术变量的重新编码plyr、reshape2等包整理数据案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:R语言绘图Day3R语言与外部数据交互 数据的读入和输出(R语言的数据的读取、加载和写出)数据的读入和写出read.tablescan内置数据集的读取R语言连接RDBMS数据库介绍R语言RDBMS数据库操作实操:R和MySQL的交互实操:R和Oracle的交互数据库的读/写R和SQL的交互实操:R和Excel的交互R语言大数据操作实操:R编写Spark程序 案例研讨:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:R语言与RDBMS交互Day4描述性统计分析 R语言统计模拟与随机抽样(R语言的算法介绍)随机数生成蒙特卡洛模拟中心极限定理的模拟线性模型剖析线性模型诊断方法多元选择模型剖析随机抽样案例:蒙特卡罗模拟的应用 描述统计分析与离群点检测(掌握R语言用法和基本数据分析、数据描述统计分析)基本数据分析(随机数的生成和统计模拟)单变量数据分析与作图双变量数据分析与作图(二维表分析,并列箱线图,相关系数)多变量数据分析与作图(多变量相关系数矩阵)离群点检测案例1:汽车数据描述统计分析案例2:财政收入与税收描述统计分析 案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:描述性统计分析Day5用R语言做数据挖掘实战 基本数据分析(数据分析和数据挖掘基础介绍)中心极限定理大数定律正态分布的特征偏度和峰度检测数据集的分布概率分布随机数生成随机抽样蒙特卡洛模拟用蒙特卡罗方法计算圆周率π案例:蒙特卡罗模拟的应用实操:R语言实现蒙特卡罗求圆周率  回归与分类(掌握回归算法与实际建模分析应用,回归与分类剖析,R语言实现及预测应用)回归分析回归分析概念线性模型剖析一元线性回归一元线性回归模型一元线性回归模型求解参数损失函数求偏导线性模型评估方法实操:R语言一元线性回归实操:R语言一元线性回归模型检验 多元线性回归(多元线性回归剖析,R语言实现及预测应用)多元选择模型剖析多元线性回归思想实操:R语言实现多元线性回归 非线性回归(非线性回归剖析,R语言实现及预测应用)双曲线函数幂函数指数函数对数函数S 型曲线实操:R语言非线性回归逐步回归分析岭回归分析 Logistic回归(Logistic回归剖析,R语言实现及预测应用)Logistic函数绘制Logistic曲线Logistic回归介绍案例:用户离网预测案例:中国税收收入增长案例分析案例:新教学方法的效果案例:信用卡违约预测案例练习:通过用户离网预测案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:用户离网预测Day6用R语言文本数据挖掘实战 文本挖掘应用(介绍文本数据挖掘的实际应用场景)文本结构分析文章分类文章摘要文章聚类相似文章推荐NLP自然语言处理命名实体识别案例分析 文本数据挖掘过程(介绍文本数据挖掘的流程)文本预处理文本挖掘模式与表示模式评估 中文分词技术介绍(介绍文本挖掘的基础中文分词技术)信息检索倒排索引文本分词停用词词根主要的分词方法基于规则的词性标注自动语义标注中文分词软件包R语言中文分词代码实现中文分词TF-IDF算法介绍(介绍TF-IDF文章分类算法以及代码实
• 刘晖:大数据分析(Python)系统课程
数据分析培训班(6门课程,共18天)(1)培训背景随着互联网、云计算、大数据、物联网、人工智能等科技的快速发展,经济发展已经进入全球化时代,企业的命运与国际经济环境紧密联系,如美国的经济危机会波及到全球各个国家与地区和企业,国家和企业已经不是孤立的存在。在经济全球化时代商业环境极其复杂,不仅要考虑国内、国外经济环境,同时还要考虑不同国家的国家政策,不同民族的民族文化,不同宗教的宗教信仰等,更加加深入了商业环境的复杂程度。在极其复杂的国际商业环境中,作为大型企业领导者仅凭经验与智慧无法全面了解与掌控企业、了解国际化的商业环境,因此很难做出正确的企业战略决策,甚至更无法做到企业精细化管理,更不可能做到高效运营,那么,如何突破因商业环境复杂度而导致的企业失控呢?并在复杂的商业竞争环境中脱颖而出并获得最大利润呢?答案是掌握企业数据和掌握国际化数据,并建立高效的数据分析体系,探索数据、挖掘数据高效准确的获取国际化的经济环境状况,洞察市场趋势提前做出有利于企业的战略决策,提高企业竞争力,规避市场风险,数据分析则是提升企业管理水平,实现上述目标的一种行之有效的方法。国际化的竞争就是信息的国际化竞争。随着大数据、人工智能的快速发展,数据的价值越发突显,并为海量的高并发的数据分析提供了新的工具与可行性,较以往的传统数据分析工具更为有效,甚至传统数据分析工具做不到的,大数据、人工智能都能做到。因此不仅仅企业,社会各个方面也因大数据的价值而提高了对数据的关注程度,也加大了数据分析的投入力度。无论是企业管理、战略决策、精准营销、精细化管理等都无处不体现着数据分析的重要性。数据如此重要,如何建设一个高效的数据分析体系呢?至少要具备以下两个条件:一是在宏观层面上正确理解数据分析;二是丰富的IT系统建设经验、分布式技术和较强的数据技术能力。第一点尤为重要,因为一旦在思想和认识层面对数据分析体系理解有误,那么即使精通于各种技术方案,所建立起来的也只是一堆技术架构的粗糙堆砌,虽然也能达到部分数据分析的效果,但必定会事倍功半。(2)培训目标本次数据分析技术培训课程,整个课程体系设计完备,思路清晰,学员通过本次课程的系统性学习可以掌握如下技能:了解数据分析的基础知识及基本理论;结合Python语言学会数据的产生、导入与预处理。掌握大数据生成与导入,数据分析流程与建模思想,数据清洗与数据加工等内容;结合Python语言掌握数据分析与挖掘基础。学习常见数据分析方法与数据挖掘概述,描述型数据分析。学习数据分析工具Python语言的数据分析实战。掌握结构化数据工具SQL的应用及相关知识。学习大数据可视化技术。包括数据可视化技术概述及培训关键点概述,数据挖掘与可视化工具介绍(Excel、SPSS、Tableau等),可视化案例分享等内容。学习Python与数据分析实战。包括Python语言入门,Python网络编程、爬虫与机器学习,Python数据分析案例分享等内容。(3)教学计划本系列课程总共由6门课程组成:教学设计NO.课程名称课程天数基础理论1概率论与数理统计1天SQL语法基础及进阶2数据分析与挖掘基础2天Python入门3Python环境准备及相关数据分析库(pandas、numpy、matplotlib、scipy)的安装及应用2天4Python语言基础知识1天5正则表达式及Python编程1天Python与数据分析实战6数据采集1天7数据分析4天8爬虫技术与实践4天数据可视化9大数据可视化2天 (4)具体课程方案(含课程大纲)课程1:概率论与数理统计-1天【匹配关键知识点】课程目标1:建立必要的概率论与数理统计基本知识素养,掌握探索随机现象统计规律的一般方法。课程目标2:掌握概率论与数理统计的基本概念、基本理论、基本方法和运算技能。包括概率论的基本概念、随机变量、多维随机变量、随机变量的数字特征、数理统计的基本概念、参数估计等相关知识。熟悉数据处理、数据分析、数据推断的各种基本方法。课程目标3:掌握处理随机现象的基本思想和方法,培养抽象概括、推理论证、严密的逻辑思维能力,以及使用概率论与数理统计的方法去分析和解决有关实际问题的能力。【课程时间】1天(8小时/天)【课程简介】通过本课程的学习,应掌握概率论与数理统计的基本概念,了解它的基本理论和方法,从而使学生初步掌握处理随机现象的基本思想和方法,培养学生运用概率统计方法分析和解决实际问题的能力,并且在知识传授的同时起到价值引领的作用,积极培育和践行社会主义核心价值观,培养学生科学、严谨的思维能力。 【课程特点】教学中以课堂讲授为主,以讨论为辅。采用启发式教学法,适当运用讨论式教学法。融入联系应用的案例式教学法,并倡导利用结合软件技术解决实际问题的实验式教学法。恰当使用多媒体教学与传统教学相结合的教学手段,充分运用教师对学生讲授与学生间自由讨论相结合、传统解题训练与开放型问题探索相结合、以及实体课堂面对面交流与虚拟课堂数字信息交流相结合的交互式教学手段,合理利用网络资源实施开放性教学手段,采用规范统考与多样化考查相结合的考核手段。【课程大纲】(1天*8小时)时间内容案例实践与练习Day1数据分析概述1面向小白的统计学:描述性统计(均值,中位数,众数,方差,标准差,与常见的统计图表)2概率的基本概念(方差、分位数、随机试验、样本空间、事件、频率、概率、排列组合),古典概型3条件概率与贝叶斯公式,独立性4微积分:随机变量及其分布(二项分布,均匀分布,正态分布)5多维随机变量及其分布6随机变量的期望,方差与协方差7大数定律、中心极限定理与抽样分布8从抽样推测规律之一:点估计与区间估计9从抽样推测规律之二:参数估计10基于正态总体的假设检验11秩和检验12预测未来的技术:回归分析13时间序列分析 案例练习: 研讨: 课程3:数据分析与挖掘基础-6天【匹配关键知识点】常见数据分析方法与数据挖掘概述,描述型数据分析,常见数据分析与挖掘算法(Kmeans、购物篮、决策树、朴素贝叶斯等)等内容。【课程时间】6天(8小时/天)【课程简介】随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,数据分析、数据建模、数据挖掘、机器学习、神经网络、深度学习、人工智能等重要性越发突出,本课程是针对大数据时代的特点,尹老师总结多年数据分析经验,而精心设计的课程,课程内容涵盖了数据领域的数据处理、统计分析、数据挖掘、机器学习、神经网络、深度学习、人工智能等内容,以及人工智能的应用范围、发展前景剖析。【课程收益】1、常见数据分析方法与数据挖掘概述;2、描述型数据分析;3、常见数据分析与挖掘算法(Kmeans、购物篮、决策树、朴素贝叶斯等)等。【课程特点】常见数据分析方法与数据挖掘概述,描述型数据分析,常见数据分析与挖掘算法(Kmeans、购物篮、决策树、朴素贝叶斯等)等内容。【课程对象】     数据分析师、技术经理、产品经理、产品助理等     将承担数据分析师职责的业务人员或信息化人员     希望加强数据分析能力的软件开发人员     系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】     具有2年以IT部门工作经验,将负责数据分析等相关任务的技术人员【课程大纲】(6天*8小时)时间内容案例实践与练习Day1常见数据分析方法与数据挖掘概述数据分析与建模的概念数据分析与建模过程数据分析模型开发过程数据建模概述机器学习概念机器学习算法剖析算法库分类算法库深度学习神经网络人工智能商业智能 案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:数据分析的过程Day2描述型数据分析统计学基本概念统计数据的计量尺度常用基本统计量集中趋势的描述指标离散趋势的描述指标中心极限定理大数定律数据的分布正态分布的特征偏度和峰度检测数据集的分布数据的分布拟合检验与正态性检验抽样标准假设检验T检验置信区间案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:描述性数据分析Day3常见数据分析与挖掘算法数据挖掘的基本任务数据挖掘建模过程定义挖掘目标数据取样数据探索数据预处理挖掘建模建立模型业务理解模型拟合训练集测试集模型评价常用的数学预测模型线性回归回归(预测)与分类决策树与随机森林聚类分析(kmeans)关联规则时序模式离群点检测深度学习人工智能神经网络案例:如何从数据中挖掘出有价值的信息案例研讨:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:常用数据分析方法与算法Day4朴素贝叶斯与回归分析主成分分析和因子分析(深入剖析主成分分析及因子分析)主成分分析总体主成分样本主成分主成分分析模型案例:主成分分析模型实现课堂实操:主成分分析模型实现 方差分析(深入剖析方差分析方法及实现)单因素方差分析单因素方差分析模型因素效应的显著性检验因素各水平均值的估计与比较两因素等重复试验下的方差分析统计模型交互效应及因素效应的显著性检验无交互效应时各因素均值的估计与比较有交互效应时因素各水平组合上的均值估计与比较两因素非重复试验下的方差分析金融案例:方差分析实现课堂实操:方差分析实现Bayes统计分析(深入剖析Bayes统计分析)Baves统计模型Bayes统计分析的基本思想Bayes统计模型Bayes统计推断原则先验分布的Bayes假设与不变先验分布共轭先验分布先验分布中超参数的确定Baves统计推断参数的Bayes点估计Bayes区间估计Bayes假设检验案例:实现Bayes统计分析建模课堂实操:实现Bayes统计分析建模 数学建模(深入剖析数学建模)数学建模数学预测模型模型评估模型参数优化 回归分析与分类分析原理与应用(深入剖析数据的回归分析与分类分析的原理以及应用)回归与分类回归分析概念线性回归模型及其参数估计一元线性回归一元线性回归模型一元线性回归模型求解参数损失函数求偏导回归方程的显著性检验残差分析误差项的正态性检验残差图分析统计推断与预测回归模型的选取穷举法逐步回归法岭回归分析一元线性回归金融案例:一元线性回归模型检验多元线性回归概述多元线性回归模型金融案例:多元线性回归实现航空业信用打分和评级模型 Logistic回归分析(剖析Logistic回归与其它回归分析方法)Logistic回归介绍Logistic函数Logistic回归模型案例:SPSS Logistic回归实现课堂实操: Logistic回归实现航空业欺诈预测模型课堂实操: Logistic回归实现航空业风险分析模型 非线性回归原理及应用(剖析非线性回归原理及应用实践)非线性回归双曲线函数幂函数指数函数对数函数S型曲线案例:非线性回归实现课堂实操:非线性回归实现航空业经营分析和绩效分析模型案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:主成分分析模型实现Day5聚类分析与关联规则挖掘 数据建模常用距离(深入剖析数据建模过程中常用的距离模型)数据挖掘常用距离欧氏距离曼哈顿距离切比雪夫距离闵可夫斯基距离标准化欧氏距离马氏距离夹角余弦汉明距离杰卡德距离 & 杰卡德相似系数相关系数 & 相关距离信息熵 聚类分析与建模实现(深入剖析聚类分析以及通过SPSS聚类算法模型分析数据)聚类分析聚类算法样品间相近性的度量快速聚类法快速聚类法的步骤用Lm距离进行快速聚类谱系聚类法类间距离及其递推公式谱系聚类法的步骤变量聚类案例:SPSS聚类实现及绘图案例:Kmeans应用案例剖析课堂实操:编写程序实现Kmeans应用案例剖析 关联规则分析与实现(深入剖析关联规则分析以及通过SPSS关联规则算法模型分析数据)关联规则支持度与置信度关联规则挖掘的过程Apriori算法关联规则案例支持度与置信度计算案例:SPSS实现关联规则课堂实操:SPSS实现航空业数据关联规则分析案例练习:通过编写程序实现Kmeans应用案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:编写程序实现Kmeans应用案例剖析Day6决策树与随机森林 决策树分析与实现(深入剖析决策树分析以及通过SPSS决策树模型分析数据)决策树分析决策树决策树构成要素决策树算法原理决策树法的决策过程决策树算法案例:实现决策树分析课堂实操:实现航空业客户细分模型随机森林  数据建模时序模式分析与实现(深入剖析时序模式分析)时序模式时间序列分析时间序列分析时间序列序列分析的三个阶段课堂实操:实现航空业客户流失模型案例练习:通过实现航空业客户细分模型案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:实现航空业客户细分模型 课程8:大数据可视化-2天【匹配关键知识点】数据可视化技术概述及培训关键点概述,数据挖掘与可视化工具介绍(SAS、Project、Excel、SPSS、Tableau等),可视化案例分享等内容。【课程时间】2天(8小时/天)【课程简介】随着互联网、移动智能设备、云计算技术、大数据技术的迅猛发展,使人类产生与获取数据的能力成数量级地增加,面对如此浩瀚的数据海洋,想通过人工分析大数据从而得到大数据中隐含的有价值的模式,几乎是不可能的。因此人们需要借助新的技术挖掘大数据中所蕴含的价值,采用数据可视化技术绝对是一个明智的选择。随着科学技术的不断发展,大量的由计算机产生的中间数据都需要进行可视化处理,以求达到辅助分析、再现客观事实的目的。通过视觉化呈现数据,可揭示了令人惊奇的模式和观察结果,某些数据是不可能通过简单统计就能显而易见的看到的模式和结论。正如作家、记者和信息设计师 David McCandless 在 TED 上说道:“通过视觉化,我们把信息变成了一道可用眼睛来探索的风景线,一种信息地图。当你在迷失在信息中时,信息地图非常实用”。由此足见数据可视化的价值。无论获得信息还是表达信息,最佳方式之一是通过视觉化方式,快速捕捉和展现信息要点与核心要义,这是数据可视化的价值点所在。数据可视化技术有着广阔的发展和应用空间,越来越受到人们的关注。【课程收益】1、数据可视化技术概述及培训关键点概述;2、数据挖掘与可视化工具介绍;3、可视化案例分享【课程特点】数据可视化技术概述及培训关键点概述,数据挖掘与可视化工具介绍(SAS、Project、Excel、SPSS、Tableau等),可视化案例分享等内容。【课程对象】     数据分析师、技术经理、产品经理、产品助理等     将承担数据分析师职责的业务人员或信息化人员     希望加强数据分析能力的软件开发人员     系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】     具有2年以IT部门工作经验,将负责数据分析等相关任务的技术人员【课程大纲】(2天*8小时)时间内容案例实践与练习Day1数据可视化技术概述及培训关键点概述 数据可视化问题剖析(深入大数据时代数据可视化存在的问题)大数据特征vs数据可视化传统数据可视化问题剖析传统数据可视化工具特点剖析 数据可视化概述(介绍数据可视化工具、特征及基础架构)数据可视化概念数据可视化作用数据可视化目标数据可视化应用数据维度和指标图表产生过程可视化的表现形式可视化的显示可视化的色彩可视化案例实战:仪表盘制作标准图表的表现能力标准图表的选择标准图表制作原则可视化案例实战:数据占比柏拉图绘制可视化的决定性因素数据可视化技巧数据化可视化工具创意性数据可视化虚拟实现技术防止过度可视化一图胜千言可视化的升华:声音 可视化的探索性分析和数据挖掘工具(学习可视化数据挖掘工具)TableauExcelEChartsQlikViewR语言PythonSPSSSAS 数据可视化图表详解(通过实例讲述数据可视化方法、过程及含义)散点图雷达图条形图柱形图饼图直方图箱线图QQ图柏拉图制作仪表盘制作玫瑰图制作热力图制作地图制作文字云制作案例剖析案例练习:通过仪表盘制作案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:仪表盘制作Day2数据挖掘与可视化工具介绍(SAS、Project、Excel、SPSS、Tableau等),可视化案例分享 Tableau简介Tableau历史与趋势剖析Tableau使用Tableau的数据类型介绍Tableau的数据结构介绍Tableau数据的读入和输出Tableau数据库的读/写Tableau与Kylin集成定性变量离散变量连续变量多元变量日期和时间数据的操作处理 数据可视化应用场景,具体案例分析淘宝24小时生活数据可视化案例无线淘宝数据可视化案例Google公司数据可视化案例Facebook用户画像可视化案例个人用户画像案例 大数据可视化呈现ECharts实战(通过一个完整的实例讲述使用ECharts数据可视化的过程与方法)Echarts使用项目案例Echarts概述ECharts特性ECharts架构图整合How to use?Step1. 引入模块加载器Step2. 设置具备大小的DomStep3. 配置echarts模块路径Step4.动态加载echartsoption的使用InterfacesetOptionOption全局属性titlelegenddataRangetoolboxdataZoomgridxAxis/yAxis/axiscolor数值型类目型tooltip.formatterseries高度个性化其它参考图形热力图社交网络 分析结果呈现和分析报告撰写合理的数据呈现报告分析模板如何撰写一份优秀的数据分析报告案例研讨:通过淘宝24小时生活数据可视化案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:淘宝24小时生活数据可视化案例 课程9:Python与数据分析实战-13天【匹配关键知识点】Python语言入门,Python网络编程、爬虫与机器学习,Python数据分析案例分享,基于spark集群的python数据分析实战等内容。【课程时间】13天(8小时/天)【课程简介】随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如Hadoop、Spark等技术,其中Python语言已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用。Python语言的功能涵盖了大数据领域的数据处理、统计分析、数据挖掘、机器学习、人工智能、大数据应用开发等各种不同类型的计算操作,应用范围广泛、前景非常广阔。本课程是尹老师多年工作经验的总结和归纳,从实际业务案例为入口,使学员从理论层到实操层面系统的学习数据处理技术,使学员深入理解Python语言等数据分析工具。通过本课程的学习,学员即可以正确的分析企业的数据,为管理者、决策层提供数据支撑。【课程收益】1、Python语言入门;2、Python网络编程;3、Python网络爬虫;4、Python机器学习;5、Python数据分析案例分享;6、基于spark集群的python数据分析实战;【课程特点】Python语言入门,Python网络编程、爬虫与机器学习,Python数据分析案例分享,基于spark集群的python数据分析实战等内容。【课程对象】     数据分析师、技术经理、产品经理、产品助理等     将承担数据分析师职责的业务人员或信息化人员     希望加强数据分析能力的软件开发人员     系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】     具有2年以IT部门工作经验,将负责数据分析等相关任务的技术人员【课程大纲】(13天*8小时)时间内容案例实践与练习Day1~Day3Python语言入门Python语言基础知识(介绍Python语言基础知识,包括Python语言数据类型、基础概念等)Python语言历史与趋势剖析Python语言安装如何运行Python程序PyCharm开发环境介绍Anaconda3开发环境介绍(以Anaconda3作为程序演示环境,Python3作为演示语言)Python语言help()命令Python基本命令变量(Variables)表达式(Expressions)基本数据类型字符串与正则表达式Python条件表达式循环(loops)案例实战:正则表达式在爬虫中应用实例Python数据结构Python创建数组Python矩阵运算Python语言语法结构案例:Python语言实现运营商数据分析处理 Python函数(深入Python函数的编写语言)Python函数介绍数据分析与建模过程Python语言定义函数规则Python语言自定义函数Python匿名函数Python内置函数Python函数案例 Python类(class)(深入剖析Python类的原理)类(class)介绍Python多重继承Python不支持函数重载Class and Instance VariablesMethod ObjectsPython类编写案例实战 Python异常处理(Exceptions)(深入剖析Python异常处理)异常处理(Exceptions)简介Python标准异常类Python异常类编程案例实战(爬虫实例) Python模块 (Modules)(深入剖析模块 (Modules))Python模块 (Modules)介绍Python自定义模块Python模块的导入与添加Python标准函数库模块Python第三方模块 Python文件读写(深入剖析Python文件读写)Python文件读写简介Python读写方法介绍Python读写文本文件Python读写二进制文件Python读写json文件Python读写xml文件 Python操作关系型数据库(深入剖析Python操作关系型数据)Python2安装MySQL Connector Python3安装MySQL ConnectorPython语言操作数据库Python语言数据库优化案例:Python语言实现话务数据时间序列建模案例练习:通过Python语言实现运营商数据分析处理案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:Python语言实现运营商数据分析处理Day4~Day5Python网络编程 多线程编程 (用实战实例介绍如何实现多线程) Python开发多线程的原理多线程创建线程锁网络应用程序编程实例:比如生成发送电子邮件  Python网络编程(介绍Python网络编程)TCP/IP网络介绍Socket基础知识Socket客户端服务器连接案例:聊天功能实战 Python Web开发实战(介绍Python Web实战)Python Web开发Django框架介绍定义和使用模型Django MVC架构Django开发环境搭建Django Session应用Django框架应用Django高级应用案例:客户通话历史记录查询案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:网络编程Day6~Day7Python网络爬虫 Python基础知识和网络程序基础知识(介绍Python基础知识和网络程序基础知识)Python语言简介Python开发环境搭建和选择IO编程进程和多线程基础知识网络编程和TCP协议 Web前端基础知识(介绍Web前端基础知识)Web程序的结构Web前端的内容HTMLCSSJavaScriptXPathJsonHTTP协议标准HTTP头和主体Cookie信息 网络爬虫基础知识(介绍网络爬虫基础知识)网络爬虫概述网络爬虫及其应用网络爬虫结构HTTP请求的Python实现urllib2/urllib实现httplib/urllib实现更人性化的Requests HTML解析(HTML解析原理介绍)初识Firebug安装和配置Firebug正则表达式基本语法与使用Python中使用正则表达式BeautifulSoup概述安装和配置BeautifulSoupBeautifulSoup的使用lxml的XPath解析 基本的爬虫程序开发(介绍基本的爬虫程序开发)基础爬虫架构及运行流程URL管理器HTML下载器HTML解析器数据存储器爬虫调度器 协议分析(协议分析)Web端协议分析网页登录POST分析隐藏表单分析加密数据分析验证码问题IP代理Cookie登录传统验证码识别人工打码滑动验证码PC客户端抓包分析HTTPAnalyzer简介虾米音乐PC端API实战分析App抓包分析Wireshark简介酷我听书App端API实战分析API爬虫:爬取mp3资源信息 Scrapy爬虫框架(介绍Scrapy爬虫框架)Scrapy爬虫架构安装Scrapy创建cnblogs项目创建爬虫模块定义Item翻页功能构建ItemPipeline内置数据存储启动爬虫强化爬虫调试方法异常控制运行状态ItemLoaderItem与ItemLoader输入与输出处理器ItemLoaderContext?请求与响应下载器中间件Spider中间件扩展突破反爬虫案例研讨:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:网络爬虫的实现Day8Python的NumPy模块NumPy 安装NumPy Ndarray 对象NumPy 数据类型NumPy 数组属性NumPy 创建数组NumPy 从已有的数组创建数组NumPy 从数值范围创建数组NumPy 切片和索引NumPy 高级索引NumPy 广播(Broadcast)NumPy 迭代数组Numpy 数组操作NumPy 位运算NumPy 字符串函数NumPy 数学函数NumPy 算术函数NumPy 统计函数NumPy 排序、条件刷选函数NumPy 字节交换NumPy 副本和视图NumPy 矩阵库(Matrix)NumPy 线性代数NumPy IONumPy Matplotlib案例练习:通过NumPy的案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:NumPy的数据处理Day9Python的Pandas模块Pandas环境安装配置Pandas数据结构Pandas快速入门Pandas系列Pandas数据帧(DataFrame)Pandas面板(Panel)Pandas基本功能Pandas描述性统计Pandas函数应用Pandas重建索引Pandas迭代Pandas排序Pandas字符串和文本数据Pandas选项和自定义Pandas索引和选择数据Pandas统计函数Pandas窗口函数Pandas聚合Pandas缺失数据Pandas分组(GroupBy)Pandas合并/连接Pandas级联Pandas日期功能Pandas时间差(Timedelta)Pandas分类数据Pandas可视化Pandas IO工具Pandas稀疏数据Pandas注意事项&窍门Pandas与SQL比较案例练习:通过Pandas使用案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:Pandas的使用方法Day10Python机器学习Python平台下的机器学习开发技术(介绍Python平台下的机器学习开发技术)Python平台下的数据分析工具Python平台下的数据分析工具概述NumPy数据处理NumPy案例Scipy数值计算SymPy符号处理Matplotlib绘制图表Pandas数据分析、探索工具Pandas的DataFrameDataFrame的构造StatsModels数据统计建模分析Scikit-Learn机器学习库Keras人工神经网络Keras的设计原则Gensim文本挖掘库OpenCV计算机视觉库案例:Python语言实现基于聚类的图像分割方法案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨:Python语言实现基于聚类的图像分割方法Day11Python机器学习 聚类模型原理与实现(深入剖析聚类原理以及通过Python语言实现聚类算法模型)聚类介绍聚类算法应用场景聚类算法应用案例样品间相近性的度量快速聚类法快速聚类法的步骤用Lm距离进行快速聚类谱系聚类法类间距离及其递推公式谱系聚类法的步骤变量聚类K-Means(K均值)聚类均值漂移聚类基于密度的聚类方法(DBSCAN)用高斯混合模型(GMM)的最大期望(EM)聚类凝聚层次聚类图团体检测(Graph Community Detection)案例:Python语言聚类实现及绘图案例:Kmeans应用案例剖析课堂实操:Python语言实现基于聚类的图像分割方法 决策树模型原理与实现(深入剖析决策树原理以及通过Python语言实现决策树模型)决策树介绍决策树应用场景决策树应用案例信息熵ID3算法C4.5算法CART算法决策树算法剪枝过拟合与调参决策树算法原理决策树法的决策过程案例:Python语言实现决策树模型课堂实操:Python语言实现决策树模型随机森林案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。 研讨: Python语言实现基于聚类的图像分割方法Day12Python数据分析案例分享 随机森林模型原理与实现(深入剖析随机森林原理以及通过Python语言实现随机森林模型)随机森林介绍随机森林的特点随机森林的相关基础知识信息、熵以及信息增益的概念随机森林的生成随机森林算法随机森林算法原理袋外错误率(oob error)随机森林应用场景随机森林应用案例案例:Python语言实现随机森林模型课堂实操:Python语言实现随机森林模型xgboost 支持向量机模型原理与实现(深入剖析支持向量机算法原理以及通过Python语言实现支持向量机模型)支持向量机介绍支持向量机应用场景支持向量机应用案例支持向量机算法支持向量机算法原理线性可分支持向量机间隔最大化和支持向量对偶问题求解柆格朗日函数非线性支持向量机和核函数超平面线性核多项式核高斯核拉普拉斯核sigmiod核线性支持向量机(软间隔支持向量机)与松弛变量松驰因子案例:Python语言实现支持向量机模型课堂实操:Python语言实现基于SVM的字符识别方法 神经网络模型原理与实现(深入剖析神经网络算法原理以及通过Python语言实现神经网络模型)神经网络介绍神经网络概念神经网络发展历史神经网络的别名神经网络研究的主要内容神经网络基本构成神经网络模拟人的智能行为的四个方面神经网络的特点学习能力适应性问题神经网络基本网络模型单层网络多层网络循环网络基本网络结构特点典型训练算法运行方式典型问题解决方法感知机线性神经网络BP神经网络RBF网络竞争网络反馈神经网络随机神经网络遗传算法PSO与神经网络优化自定义深度神经网络结构深度神经网络的优化方法深度框架的
• 刘晖:SPSS数据统计分析课程
【课程收益】认识和应用SPSS最新统计分析软件掌握SPSS软件及技术原理学会运用统计方法解决工作和学习中的实际问题提高SPSS软件的运用能力,解决工作中的实际问题如何在SPSS中完成数据的统计描述和参数估计,以及如何使用统计图表来进行数据的完美呈现【课程特色】1.   课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。2.   清晰的知识结构,根据应用经验采用最优化授课模式。3.   内容充沛、详略得当,前后呼应。4.   讲师资历丰富,具有丰富的实践经验。5.   知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪根据课程提供相应的练习数据,实现边学编练,以实践为主线掌握相应的知识体系。【课程对象】相关人员【课程时间】2天(6小时/天)需要上机操作【课程大纲】第一部分 数据管理与软件入门一、数据分析概述与软件入门SPSS软件概述SPSS的安装SPSS操作入门SPSS软件的启动与退出SPSS的5个窗口SPSS的4种运行方式SPSS的4种结果输出数据分析概述数据分析方法论介绍SPSS系列产品对数据分析流程的支持二、数据录入与数据获取数据格式概述数据的直接录入外部数据的获取电子表格数据如何导入 SPSS中文本数据如何导入 SPSS中数据库格式数据如何导入SPSS中数据的保存存为 SPSS格式存为其他数据格式三、数据管理变量级别的数据管理计算新变量对变量值进行分组合并连续变量的可视化分段将字符变量转换为数值变量变量的编秩文件级别的数据管理记录排序记录拆分记录筛选记录加权数据汇总数据字典的定义与应用查找重复记录数据文件的重新排列与转置多个数据文件的合并第二部分 统计描述与统计图表一、连续变量的统计描述与参数估计连续变量的统计描述概述统计描述中可用的工具连续变量的统计描述指标体系SPSS中的相应功能集中趋势的描述指标算术均数中位数其他集中趋势描述指标离散趋势的描述指标全距方差和标准差百分位数、四分位数与四分位数间距变异系数连续变量统计描述实例连续变量的参数估计正态分布参数的点估计参数的区间估计二、分类变量的统计描述与参数估计分类变量的统计描述概述分类变量统计描述实例多选题的统计描述分类变量的参数估计三、数据的报表呈现SPSS报表概述表格入门用 OriginalTables模块制表用 CustomTable模块自由制表表格的编辑表格高级应用技术四、数据的图形展示统计图概述直方图与茎叶图箱图饼图条图线图散点图其他统计图交互式统计图的编辑SPSS绘图中的注意事项第三部分 常用假设检验方法一、分布类型的检验假设检验的基本思想正态分布检验二项分布检验游程检验二、连续变量的统计推断-t检验t检验基础样本均数与总体均数的比较成组设计两样本均数的比较配对设计样本均数的比较三、连续变量的统计推断-单因素方差分析方差分析入门为什么要进行方差分析方法原理单因素方差分析的应用条件单因素方差分析的 SPSS实现均数间的多重比较直接校正检验水准专用的两两比较方法两两比较方法的选择策略多重比较结果出现矛盾时的解释分析实例各组均数的精细比较方法原理分析实例事先计划的比较组间均数变化的趋势检验四、有序分类变量的统计推断-非参数检验非参数检验概述非参数检验的意义非参数检验预备知识两个配对样本的非参数检验方法原理分析实例确切概率的计算两个独立样本的非参数检验Mann-WhitneyU检验分析实例其他两样本非参数检验方法多个独立样本的非参数检验方法原理分析实例多个样本的两两比较多个相关样本的非参数检验Friedman检验分析实例Kendall协和系数检验与Cochran检验秩变换分析方法原理简介应用实例五、无序分类变量的统计推断-χ2检验χ2 检验基础拟合问题-样本率与已知总体率的比较分析实例检验方法的 SPSS实现单样本χ2检验的其他话题相关问题- 两(多)个率或构成比的比较分析实例检验方法的 SPSS实现多样本 χ2检验的其他话题两分类变量间关联程度的度量一致性检验与配对χ2 检验分层χ2检验六、相关分析与回归分析相关分析简介简单相关分析偏相关分析Distances过程简单回归分析

添加企业微信

1V1服务,高效匹配老师
欢迎各种培训合作扫码联系,我们将竭诚为您服务