(1)培训背景
随着互联网、云计算、大数据、物联网、人工智能等科技的快速发展,经济发展已经进入全球化时代,企业的命运与国际经济环境紧密联系,如美国的经济危机会波及到全球各个国家与地区和企业,国家和企业已经不是孤立的存在。在经济全球化时代商业环境极其复杂,不仅要考虑国内、国外经济环境,同时还要考虑不同国家的国家政策,不同民族的民族文化,不同宗教的宗教信仰等,更加加深入了商业环境的复杂程度。在极其复杂的国际商业环境中,作为大型企业领导者仅凭经验与智慧无法全面了解与掌控企业、了解国际化的商业环境,因此很难做出正确的企业战略决策,甚至更无法做到企业精细化管理,更不可能做到高效运营,那么,如何突破因商业环境复杂度而导致的企业失控呢?并在复杂的商业竞争环境中脱颖而出并获得最大利润呢?答案是掌握企业数据和掌握国际化数据,并建立高效的数据分析体系,探索数据、挖掘数据高效准确的获取国际化的经济环境状况,洞察市场趋势提前做出有利于企业的战略决策,提高企业竞争力,规避市场风险,数据分析则是提升企业管理水平,实现上述目标的一种行之有效的方法。国际化的竞争就是信息的国际化竞争。
随着大数据、人工智能的快速发展,数据的价值越发突显,并为海量的高并发的数据分析提供了新的工具与可行性,较以往的传统数据分析工具更为有效,甚至传统数据分析工具做不到的,大数据、人工智能都能做到。因此不仅仅企业,社会各个方面也因大数据的价值而提高了对数据的关注程度,也加大了数据分析的投入力度。无论是企业管理、战略决策、精准营销、精细化管理等都无处不体现着数据分析的重要性。
数据如此重要,如何建设一个高效的数据分析体系呢?至少要具备以下两个条件:一是在宏观层面上正确理解数据分析;二是丰富的IT系统建设经验、分布式技术和较强的数据技术能力。第一点尤为重要,因为一旦在思想和认识层面对数据分析体系理解有误,那么即使精通于各种技术方案,所建立起来的也只是一堆技术架构的粗糙堆砌,虽然也能达到部分数据分析的效果,但必定会事倍功半。构建数据分析体系包括四个层面:一是数据基础平台;二是数据报表与可视化;三是精细化业务分析;四是战略分析与决策。如下图为数据分析体系结构图。
那么在数据基础平台建设层面,均采用大数据平台,如Hadoop、Spark等大数据平台,其好处是开源、可控,无需从零开始搭建平台节约成本;也避免了因大数据的多样性、隐私性等特点导致供应无法深入挖掘数据的问题。为什么要自建数据分析平台呢?不能采购吗?答案是不能采购,只能自建!因为数据挖掘一个持续的过程,日常企业经常过程产生的数据、市场数据都是需要分析的,是一个持续不断的工作,不是编写几个算法了事的,所以如果从供应商采购必然会导致分析工作不够深入与不够专业,数据的价值是隐藏在数据中的,需要不断的持续的挖掘才能找的,不是算法和分析工具能做到的。因此企业需要自建数据分析平台,而不采购分析工具。
Hadoop、Spark生态系统是大数据技术事实标准,是大数据思想、理念、机制的具体实现,是整个大数据技术中公认的核心框架和具有极强的使用价值与研究价值。Hadoop 系统是一款开源软件,能够处理海量的各种结构(包括结构化、非结构化、半结构化)的数据。
Hadoop是分布式集群框架,可以管理成百上千台x86服务器集群。基于 Hadoop 的解决方案能够帮助企业应对多种大数据挑战,包括:
Hadoop 能够分析所有数据,使得分析更准确,预测更精确;
将来自多个数据源的不同类型的数据进行结合分析,发现新的数据关系和洞察力;
由于它不依赖于高端硬件,且是可扩展的,所以使存储大量数据变得经济有效;
Hadoop 提供了一个地方,数据科学家可在此发现新的数据关系和相互依赖性。
工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出:
“2012 年美国联邦政府就在全球率先推出“大数据行动计划(Big data initiative)”,重点在基础技术研究和公共部门应用上加大投入。在该计划支持下,加州大学伯克利分校开发了完整的大数据开源软件平台“伯克利数据分析软件栈(Berkeley Data Analytics Stack),其中的内存计算软件Spark的性能比Hadoop 提高近百倍,对产业界大数据技术走向产生巨大影响”
----来源:工业和信息化部电信研究院
Spark是成为替代MapReduce架构的大数据分析技术,Spark的大数据生态体系包括流处理、图技术、机器学习等各个方面,并且已经成为Apache顶级项目,可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。
国内外一些大型互联网公司已经部署了Spark,并且它的高性能已经得到实践的证明。国外Yahoo已在多个项目中部署Spark,尤其在信息推荐的项目中得到深入的应用;国内的淘宝、爱奇异、优酷土豆、网易、baidu、腾讯等大型互联网企业已经将Spark应用于自己的生产系统中。国内外的应用开始越来越广泛。Spark正在逐渐走向成熟,并在这个领域扮演更加重要的角色。
本次数据分析技术培训课程,整个课程体系设计完备,思路清晰,学员通过本次课程的系统性学习可以掌握如下技能:
通过以上的系统学习,学员会建立完整的数据知识体系,使学员正确认识大数据,掌握大数据思维方法,为工作、生活和学习打下坚实的基础,为持续成长提供原动力。下图为本次课程结束后学员获取的完整数据知识体系如下图。
完整数据知识体系
本系列课程总共由9门课程组成:
教学设计 | NO. | 课程名称 | 课程天数 |
基础与概述 | 1 | 数据分析概述 | 1天 |
2 | 数据的产生、导入与预处理 | 5天 | |
数据分析与数据挖掘核心技术讲解及案例实操 | 3 | 数据分析与挖掘基础 | 6天 |
4 | R语言数据分析实战 | 6天 | |
大数据技术讲解与编程实操 | 5 | 大数据工具介绍之Hadoop | 2天 |
6 | 大数据工具介绍之Spark | 3天 | |
7 | Pyspark集群调度与数据处理 | 2天 | |
大数据可视化 | 8 | 大数据可视化 | 2天 |
Python与数据分析实战 | 9 | Python与数据分析实战 | 13天 |
第1-2门课属于基础与概述,包括数据分析基本概念及产业链,数据分析与大数据等内容。大数据生成与导入,数据分析流程与建模思想,数据清洗与数据加工等内容。
第3-4门课程数据分析与数据挖掘核心技术讲解及案例实操,包括常见数据分析方法与数据挖掘概述,描述型数据分析,常见数据分析与挖掘算法(Kmeans、购物篮、决策树、朴素贝叶斯等)等内容。R语言入门基础,描述性统计分析, 用R语言做数据挖掘实战等内容。。
第5-7门课程主要大数据技术讲解与编程实操,包括Hadoop原理及组件介绍,Hadoop数据分析入门等内容。Spark基本概念,Spark开发与数据分析等内容。使用Python调度spark集群并进行数据处理等内容。
第8门是大数据可视化。包括数据可视化技术概述及培训关键点概述,数据挖掘与可视化工具介绍(SAS、Project、Excel、SPSS、Tableau等),可视化案例分享等内容。
第9门是Python与数据分析实战。包括Python语言入门,Python网络编程、爬虫与机器学习,Python数据分析案例分享,基于spark集群的python数据分析实战等内容。
【匹配关键知识点】
数据分析基本概念及产业链,数据分析与大数据等内容。
【课程时间】
1天(6小时/天)
【课程简介】
本课程介绍大数据体系构建数据平台,重点内容包括数据平台基础理论、数据集成、数据维度等知识点;本课程让学员掌握基于大数据生态的数据分析知识、大数据生态体系技术选型,能够应用建模技术、大数据技术构建数据平台。
随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,数据分析、数据建模、数据挖掘、机器学习等重要性越发突出,本课程是针对大数据时代的特点,尹老师总结多年数据分析经验,而精心设计的课程,课程内容涵盖了数据领域的数据处理、统计分析、数据挖掘、机器学习等内容的应用范围、发展前景剖析。
【课程收益】
1、数据分析基本概念及产业链等内容;
2、数据分析与大数据等内容;
【课程特点】
数据分析基本概念及产业链,数据分析与大数据等内容
【课程对象】
数据分析师、技术经理、产品经理、产品助理等
将承担数据分析师职责的业务人员或信息化人员
希望加强数据分析能力的软件开发人员
系统集成企业售前工程师、售前顾问及方案制作人员
【学员基础】
具有2年以IT部门工作经验,将负责数据分析等相关任务的技术人员
【课程大纲】(1天*6小时)
时间 | 内容 | 案例实践与练习 |
Day1 数据分析概述 |
| 案例练习:通过大数据企业应用障碍分析案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:大数据企业应用障碍分析 |
【匹配关键知识点】
大数据生成与导入,数据分析流程与建模思想,数据清洗与数据加工等内容。
【课程时间】
5天(6小时/天)
【课程简介】
随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如Hadoop、Spark等技术,其中Python语言已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用。Python语言的功能涵盖了大数据领域的数据处理、统计分析、数据挖掘、机器学习、人工智能、大数据应用开发等各种不同类型的计算操作,应用范围广泛、前景非常广阔。本课程是尹老师多年工作经验的总结和归纳,从实际业务案例为入口,使学员从理论层到实操层面系统的学习数据处理技术,使学员深入理解Python语言等数据分析工具。通过本课程的学习,学员即可以正确的分析企业的数据,为管理者、决策层提供数据支撑。
【课程收益】
1、大数据生成与导入;
2、数据分析流程与建模思想;
3、数据清洗与数据加工。
【课程特点】
大数据生成与导入,数据分析流程与建模思想,数据清洗与数据加工等内容。
【课程对象】
数据分析师、技术经理、产品经理、产品助理等
将承担数据分析师职责的业务人员或信息化人员
希望加强数据分析能力的软件开发人员
系统集成企业售前工程师、售前顾问及方案制作人员
【学员基础】
具有2年以IT部门工作经验,将负责数据分析等相关任务的技术人员
【课程大纲】(5天*6小时)
时间 | 内容 | 案例实践与练习 |
Day1 数据的产生、导入与预处理 |
| 案例练习:通过数据整理的编程和应用案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:数据整理的编程和应用 |
Day2 数据清洗与数据加工 |
| 案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:数据模型案例分析 |
Day3 大数据生成与导入 |
| 案例练习:通过淘宝双十一案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:淘宝双十一 |
Day4 数据分析流程 |
| 案例研讨:通过数据挖掘案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:数据挖掘 |
Day5 数据分析流程与建模思想 |
| 案例练习:通过企业实践案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:企业实践案例分享 |
Day5 数据的统计学知识和模型 |
| 案例练习:通过数据模型的应用案例剖析案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:数据模型的应用案例剖析 |
【匹配关键知识点】
常见数据分析方法与数据挖掘概述,描述型数据分析,常见数据分析与挖掘算法(Kmeans、购物篮、决策树、朴素贝叶斯等)等内容。
【课程时间】
6天(6小时/天)
【课程简介】
随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,数据分析、数据建模、数据挖掘、机器学习、神经网络、深度学习、人工智能等重要性越发突出,本课程是针对大数据时代的特点,尹老师总结多年数据分析经验,而精心设计的课程,课程内容涵盖了数据领域的数据处理、统计分析、数据挖掘、机器学习、神经网络、深度学习、人工智能等内容,以及人工智能的应用范围、发展前景剖析。
【课程收益】
1、常见数据分析方法与数据挖掘概述;
2、描述型数据分析;
3、常见数据分析与挖掘算法(Kmeans、购物篮、决策树、朴素贝叶斯等)等。
【课程特点】
常见数据分析方法与数据挖掘概述,描述型数据分析,常见数据分析与挖掘算法(Kmeans、购物篮、决策树、朴素贝叶斯等)等内容。
【课程对象】
数据分析师、技术经理、产品经理、产品助理等
将承担数据分析师职责的业务人员或信息化人员
希望加强数据分析能力的软件开发人员
系统集成企业售前工程师、售前顾问及方案制作人员
【学员基础】
具有2年以IT部门工作经验,将负责数据分析等相关任务的技术人员
【课程大纲】(6天*6小时)
时间 | 内容 | 案例实践与练习 |
Day1 常见数据分析方法与数据挖掘概述 |
| 案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:数据分析的过程 |
Day2 描述型数据分析 |
| 案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:描述性数据分析 |
Day3 常见数据分析与挖掘算法 |
| 案例研讨:通过案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:常用数据分析方法与算法 |
Day4 朴素贝叶斯与回归分析 |
| 案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:主成分分析模型实现 |
Day5 聚类分析与关联规则挖掘 |
| 案例练习:通过编写程序实现Kmeans应用案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:编写程序实现Kmeans应用案例剖析 |
Day6 决策树与随机森林 |
| 案例练习:通过实现航空业客户细分模型案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:实现航空业客户细分模型 |
【匹配关键知识点】
R语言入门基础,描述性统计分析, 用R语言做数据挖掘实战等内容。
【课程时间】
6天(6小时/天)
【课程简介】
R语言由新西兰奥克兰大学ross ihaka和robert gentleman 开发。R语言是自由软件,具有非常强大的统计分析和作图功能,而且具有非常丰富的网上资源,目前R软件有3000多种贡献包,几乎可以实现所有的统计方法,目前大部分的顶级统计学家和计量经济学家都使用R语言,而且越来越多的数据分析实务人员也开始使用R语言。学习R软件正成为一种趋势。
R语言具有简单易学,功能强大,体积小(仅30M),完全免费,可自由开发等特点,且R语言和S语言语法基本相同,绝大部分程序是互相兼容的。
R软件最优美的地方是它能够修改很多前人编写的包的代码做各种你所需的事情,实际你是站在巨人的肩膀上。
【课程收益】
1、R语言入门基础;
2、描述性统计分析;
3、用R语言做数据挖掘实战等内容;
【课程特点】
R语言入门基础,描述性统计分析, 用R语言做数据挖掘实战等内容。
【课程对象】
数据分析师、技术经理、产品经理、产品助理等
将承担数据分析师职责的业务人员或信息化人员
希望加强数据分析能力的软件开发人员
系统集成企业售前工程师、售前顾问及方案制作人员
【学员基础】
具有2年以IT部门工作经验,将负责数据分析等相关任务的技术人员
【课程大纲】(6天*6小时)
时间 | 内容 | 案例实践与练习 |
Day1 R语言入门基础 |
| 案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:R语言编程 |
Day2 R语言绘图功能 |
| 案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:R语言绘图 |
Day3 R语言与外部数据交互 |
| 案例研讨:通过案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:R语言与RDBMS交互 |
Day4 描述性统计分析 |
| 案例练习:通过案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:描述性统计分析 |
Day5 用R语言做数据挖掘实战 |
| 案例练习:通过用户离网预测案例的剖析数据分析过程,体会数据分析的难点和要点。
研讨:用户离网预测 |
Day6 用R语言文本数据挖掘实战 |
|