叶梓：大数据提纲

叶梓专家讲师 632查看

课程概要

培训时长 : 1天

课程价格 : 扫码添加微信咨询

课程分类 : 数据分析

课程编号 : 10006

联系老师

适用对象

课程介绍

课时一：概念综述

大数据的定义由来和原因
大数据的6V特征
从数据库，数据仓库到大数据
大数据相关技术和处理

课时二：Hadoop生态圈、spark生态圈、搜索引擎概述

hadoop：HDFS、Map-Reduce、Hbase、Hive等
spark：scala、spark-SQL、spark-Streaming等
搜索引擎：lucene（solr）、ES
并发的机器学习工具：R-hadoop、spark-MLLIB、 spark-R、pyspark

课时三：存储在hbase中的数据

NoSQL（key-value）
Hbase：安装
行键与列簇
如何利用Hbase的特点存储数据
应用程序如何访问Hbase中的数据
数据迁移：sqoop
Hbase的应用场景

课时四：Hive：为用SQL的开发者留的活路

Hive：安装（单用户与多用户）
Hive：基本操作
Hive：与典型的关系型数据库的区别
如果“想慢”，你可以这样…（不恰当使用hive的案例介绍）
Hive的应用场景

课时五：Spark各组件在卫生领域的应用

Hadoop最大的特点是什么？
Spark概述与安装
Scala：你可以一直“点”下去
RDD：“映射”、“转换”解决一切
spark-SQL
spark-streaming
spark的其他组件
应用场景

课时六：机器学习算法介绍—I

综述（人工智能、数据挖掘、机器学习、机器智能、大数据：这些词的确切含义）
监督学习、无监督学习与强化学习
工具：R、Python等
决策树详解（熵、贪心法、连续的和离散的）
神经网络详解（神经元、激励函数、前馈神经网络的BP算法，其他神经网络）

课时七：机器学习算法介绍—II

关联规则详解（频繁项集、Apriori、支持度、置信度）
聚类详解（k-means、k-medoid）
常见算法的简述（Naïve-Bayes、k-NN、HMM、SVM等）

叶梓老师的其他课程

• 叶梓：Python深度学习与知识图谱培训（进阶部分）: 【课程简介】人工智能的浪潮正在席卷全球，各种培训课程应运而生，但真正能让学员系统、全面掌握知识点，并且能学以致用的实战课程并不多见。本课程包含深度学习、知识图谱的重要概念及常用算法（目标检测、图像分割、自然语言处理、RNN、知识图谱、GAN等），以及人工智能领域当前的热点。通过3天的系统学习、案例讲解和动手实践，让学员能初步迈入深度学习和知识图谱的知识殿堂。【课程收益】掌握Python开发技能；掌握深度学习工具：TensorFlow、Keras、pytorch等；掌握深度学习的理论与实践；掌握知识图谱基本知识；为学员的后续项目应用提供针对性的建议。【课程特点】本课程力图理论结合实践，强调从零开始，重视动手实践；课程内容以原理讲解为根本，以应用落地为目标。课程通过大量形象的比喻和手算示例来解释复杂的机器学习理论，既能将原理充分讲懂讲透，也避免了繁复而枯燥的公式推导。【课程对象】计算机相关专业本科；或理工科本科，且至少熟悉一门编程语言。【主讲专家】叶梓，博士、高级工程师。2005年上海交通大学计算机专业博士毕业，主研方向为数据挖掘、机器学习、人工智能等。现为某大型上市软件企业的人工智能团队技术负责人。在大数据、人工智能应用等方面有着丰富的工程实践经验。先后在SCI或EI期刊上发表论文4篇，在中文核心期刊上发表论文近20篇，并被百度学术收录。【学员基础】具备初步的IT基础知识【课程大纲】（培训内容可根据客户需求调整）时间内容案例实践与练习Day4上午目标检测二阶段目标检测目标检测项目介绍R-CNNSPPNET（全图卷积、SPP层）Fast-RCNN（多任务）Faster-RCNN（RPN）一阶段目标检测（2）SSDYOLO-v1（一切都是回归）YOLO -v2（9000）YOLO -v3（多尺度）YOLO -v4YOLO -v5 案例实践：基于Faster-RCNN的通用目标检测示例血常规分析案例实践：基于YOLO v3的通用目标快速检测示例基于YOLO v4的疫情防控系统Day4下午图像分割与NLP初步图像分割（3）全卷积网络（FCN）上采样的三种实现方式膨胀卷积HMM与CRFDeepLab V1~V3 自然语言处理初步（2）语言模型Bi-Gram与N-Gram机械分词与统计分词词性标注命名实体识别情感分析DeepLab：遥感地图分析 Day5上午RNN与W2V 循环神经网络（1）RNN基本原理LSTM、GRU双向循环神经网络编码器与解码器结构seq2seq模型AttentionNIC模型词向量（3）W2V:CBOWW2V:skip-gramW2V:Hierachical SoftmaxW2V:Negative Sampling 案例实践：股票交易数据的预测；藏头诗生成；《绝代双骄》中，谁和小鱼儿最相似？SnowNLP：褒义的中性词Word2vec代码解读 Day5下午预训练模型基础 Transformer所有你需要的仅仅是“注意力”Transformer中的block自注意力机制多头注意力位置编码（抛弃RNN）Batch Norm与Layer Norm解码器的构造 BERTBERT整体架构Masked-LMNext Sentence Prediction改造下游任务WordPiece作为输入哪些改进起作用？案例实践：手推TransformerBERT代码解读BERT下游任务的改造 Day6上午知识图谱概念知识图谱基础概念知识推理本体推理方法本体推理工具语义搜索RDF与RDFSOWL与OWL2 知识图谱存储Neo4j开发环境部署Neo4j-可视化操作Neo4j-CQL语法基础Neo4j-完整案例操作实战Neo4j系统管理Python与Neo4j的集成实践：Neo4j的安装Neo4j的基本操作 Day6下午知识图谱存储知识图谱自动抽取实体消歧与链接知识图谱表示学习基于深度学习的实体识别基于深度学习的属性链接知识问答系统基于知识图谱问答系统 GAN生成对抗网络（GAN）KL散度与JS散度改进的GAN：DCGAN加上约束：infoGAN根本上解决：Wasserstein GAN 实践：Python与Neo4j的集成知识抽取的DL模型完整的基于KG的问答系统（KBQA）计算机想象的数字特朗普的孩子查无此人【授课环境】讲课环境要能上网

• 叶梓：Python深度学习与知识图谱培训（基础部分）: 【课程简介】人工智能的浪潮正在席卷全球，各种培训课程应运而生，但真正能让学员系统、全面掌握知识点，并且能学以致用的实战课程并不多见。本课程包含基于python的数据分析、深度学习的重要概念及常用算法（决策树、关联规则、聚类、贝叶斯网络、神经网络、支持向量机、隐马尔科夫模型、遗传算法、CNN等），以及人工智能领域当前的热点。通过3天的系统学习、案例讲解和动手实践，让学员能初步迈入机器学习、深度学习的知识殿堂。【课程收益】掌握Python开发技能；掌握深度学习工具：TensorFlow、Keras、pytorch等；掌握基于python的数据分析知识；掌握数据挖掘与机器学习进阶知识；掌握深度学习的基础理论与实践；【课程特点】本课程力图理论结合实践，强调从零开始，重视动手实践；课程内容以原理讲解为根本，以应用落地为目标。课程通过大量形象的比喻和手算示例来解释复杂的机器学习理论，既能将原理充分讲懂讲透，也避免了繁复而枯燥的公式推导。【课程对象】计算机相关专业本科；或理工科本科，且至少熟悉一门编程语言。【主讲专家】叶梓，博士、高级工程师。2005年上海交通大学计算机专业博士毕业，主研方向为数据挖掘、机器学习、人工智能等。现为某大型上市软件企业的人工智能团队技术负责人。在大数据、人工智能应用等方面有着丰富的工程实践经验。先后在SCI或EI期刊上发表论文4篇，在中文核心期刊上发表论文近20篇，并被百度学术收录。【学员基础】具备初步的IT基础知识【课程大纲】（培训内容可根据客户需求调整）时间内容案例实践与练习Day1上午基于python的实验环境实验环境搭建anaconda包的安装pip install的技巧通过anaconda配置多个环境Jupyter Notebook的使用绘图工具包matplotlibopencv的安装Tensorflow的安装Pytorch的安装paddlepaddle的安装案例实践：python安装opencv安装与验证Tensorflow安装与验证Pytorch安装与验证paddlepaddle安装与验证 Day1下午Python基础 Python开发概述Python的基本语法引入外部包常用的数据结构定义函数Python中的面向对象编程文件读写访问数据库数据预处理数据清理规范化无标签时：PCA有标签时：Fisher线性判别数据压缩（DFT、小波变换）回归与时序分析线性回归非线性回归logistics回归案例实践：元组、列表、字典、集合PCA的实验DFT的实验回归的实验Day2上午基于python的数据分析决策树模型分类和预测熵减过程与贪心法ID3C4.5其他改进方法决策树剪枝聚类监督学习与无监督学习K-means与k-medoids层次的方法基于密度的方法基于网格的方法孤立点分析案例实践：决策树的实验鸢尾花数据的聚类手肘法分析NBA球队的最佳聚类个数各种聚类方式的图形化展示 Day2下午基于python实现的经典算法关联规则频繁项集支持度与置信度提升度Apriori性质连接与剪枝性能评价指标（5）精确率；P、R与F1ROC与AUC对数损失泛化性能评价：k折验证验证案例实践：超市购物篮——关联规则分析皮马印第安人患糖尿病的风险Day3上午深度学习基础 BP神经网络人工神经元及感知机模型Sigmoid激活函数前向神经网络的架构梯度下降误差反向传播详解支持向量机“双螺旋”问题基本模型与惩罚项求解对偶问题核函数：映射到高维从二分类到多分类用于连续值预测的支持向量机案例实践：皮马印第安人糖尿病风险：验证多种模型绘制ROC并计算AUC手算神经网络BP算法只用numpy，手推BPNNSVM实现人脸识别应用 Day3下午深度学习基础与CNN 深度学习基础连接主义的兴衰深度学习与神经网络的区别与联系目标函数与激励函数学习步长权重初始化权重衰减（Weight Decay）梯度下降的方法：Adagrad \ RMSprop \ Adam避免过适应图像分类CNN图像分类概述AlexNet与ZF-NetVGG（5层变为5组）迁移学习GoogLenet和Inception模块模型退化与ResNetDenseNet（充分利用特征）最新的efficientnet 案例实践：通过深度BP网络实现手写数字的识别各种梯度下降方法的实战效果Batch normalization的效果案例实践：VGG各层的可视化展现迁移学习：猫狗大战Resnet用于图像分类【授课环境】讲课环境要能上网

• 叶梓：Python、知识图谱与深度学习培训: 【课程简介】人工智能的浪潮正在席卷全球，各种培训课程应运而生，但真正能让学员系统、全面掌握知识点，并且能学以致用的实战课程并不多见。本课程包含基于python的数据分析、深度学习、知识图谱和的重要概念及常用算法（决策树、关联规则、聚类、贝叶斯网络、神经网络、支持向量机、隐马尔科夫模型、遗传算法、CNN、RNN、GAN等），以及人工智能领域当前的热点。通过8天的系统学习、案例讲解和动手实践，让学员能初步迈入机器学习、深度学习和知识图谱的知识殿堂。【课程收益】掌握Python开发技能；掌握深度学习工具：TensorFlow、Keras、pytorch等；掌握基于python的数据分析知识；掌握数据挖掘与机器学习进阶知识；掌握深度学习的理论与实践；掌握知识图谱基本知识；为学员的后续项目应用提供针对性的建议。【课程特点】本课程力图理论结合实践，强调从零开始，重视动手实践；课程内容以原理讲解为根本，以应用落地为目标。课程通过大量形象的比喻和手算示例来解释复杂的机器学习理论，既能将原理充分讲懂讲透，也避免了繁复而枯燥的公式推导。【课程对象】计算机相关专业本科；或理工科本科，且至少熟悉一门编程语言。【主讲专家】叶梓，博士、高级工程师。2005年上海交通大学计算机专业博士毕业，主研方向为数据挖掘、机器学习、人工智能等。现为某大型上市软件企业的人工智能团队技术负责人。曾主持设计并搭建上海市卫计委卫生大数据平台、无锡市卫生大数据平台，在大数据、人工智能应用等方面有着丰富的工程实践经验。先后在SCI或EI期刊上发表论文4篇，在中文核心期刊上发表论文近20篇，并被百度学术收录。2011年获中国医院协会科技创新一等奖。【学员基础】具备初步的IT基础知识【课程大纲】（培训内容可根据客户需求调整）时间内容案例实践与练习Day1上午基于python的实验环境实验环境搭建anaconda包的安装pip install的技巧通过anaconda配置多个环境Jupyter Notebook的使用绘图工具包matplotlibopencv的安装Tensorflow的安装Pytorch的安装paddlepaddle的安装案例实践：python安装opencv安装与验证Tensorflow安装与验证Pytorch安装与验证paddlepaddle安装与验证 Day1下午Python基础 Python开发概述Python的基本语法引入外部包常用的数据结构定义函数Python中的面向对象编程文件读写访问数据库数据预处理数据清理规范化模糊集粗糙集无标签时：PCA有标签时：Fisher线性判别数据压缩（DFT、小波变换）回归与时序分析线性回归非线性回归logistics回归案例实践：PCA的实验DFT的实验回归的实验 Day2上午基于python的数据分析决策树模型分类和预测熵减过程与贪心法ID3C4.5其他改进方法决策树剪枝聚类监督学习与无监督学习K-means与k-medoids层次的方法基于密度的方法基于网格的方法孤立点分析案例实践：决策树的实验鸢尾花数据的聚类手肘法分析NBA球队的最佳聚类个数各种聚类方式的图形化展示 Day2下午基于python实现的经典算法关联规则频繁项集支持度与置信度提升度Apriori性质连接与剪枝性能评价指标（5）精确率；P、R与F1ROC与AUC对数损失泛化性能评价：k折验证验证案例实践：超市购物篮——关联规则分析朴素贝叶斯案例：皮马印第安人患糖尿病的风险Day3上午知识图谱概念知识图谱综述自然语言处理概念回顾知识表示与知识抽取面向非结构化的数据知识抽取实体消歧与链接图数据库介绍实体对齐方法知识融合知识推理、搜索与知识问答早期知识图谱概念知识推理本体推理方法本体推理工具语义搜索RDF与RDFSOWL与OWL2SPARQL 实践：Neo4j的安装知识推理模型 Day3下午知识图谱存储知识图谱存储知识存储模型图数据库选型Neo4j开发环境部署Neo4j-可视化操作Neo4j-CQL语法基础Neo4j-完整案例操作实战Neo4j系统管理Python与Neo4j的集成实践：Neo4j的安装Neo4j的基本操作基于Neo4j的查询Python与Neo4j的集成Day4上午知识图谱自动抽取知识图谱自动抽取面向文本的知识抽取DeepDive关系抽取实践开放域关系抽取实体消歧与链接知识规则挖掘知识图谱表示学习基于DL的知识图谱自动抽取基于深度学习的实体识别基于深度学习的属性链接实践：基于百科数据的知识抽取知识抽取的DL模型 Day4下午KBQA完整体系 KBQA完整体系知识问答系统知识问答系统基本流程知识问答系统主流方法开源的问答系统基于知识图谱问答系统综合案例完整的基于KG的问答系统（KBQA）Day5上午深度学习基础 BP神经网络人工神经元及感知机模型Sigmoid激活函数前向神经网络的架构梯度下降误差反向传播详解支持向量机“双螺旋”问题基本模型与惩罚项求解对偶问题核函数：映射到高维从二分类到多分类用于连续值预测的支持向量机案例实践：皮马印第安人糖尿病风险：验证多种模型绘制ROC并计算AUC手算神经网络BP算法只用numpy，手推BPNN Day5下午深度学习基础与CNN 深度学习基础连接主义的兴衰深度学习与神经网络的区别与联系目标函数与激励函数学习步长权重初始化权重衰减（Weight Decay）梯度下降的方法：Adagrad \ RMSprop \ Adam避免过适应图像分类CNN图像分类概述AlexNet与ZF-Net卷积层的误差反向传播池化层的误差反向传播VGG（5层变为5组）迁移学习GoogLenet和Inception模块模型退化与ResNetDenseNet（充分利用特征）最新的efficientnet 案例实践：SVM实现人脸识别应用通过深度BP网络实现手写数字的识别各种梯度下降方法的实战效果Batch normalization的实战效果案例实践：VGG各层的可视化展现迁移学习：识别猫和狗Resnet用于图像分类 Day6上午目标检测二阶段目标检测目标检测项目介绍R-CNNSPPNET（全图卷积、SPP层）Fast-RCNN（多任务）Faster-RCNN（RPN）R-FCN 一阶段目标检测（2）SSDYOLO-v1（一切都是回归）YOLO -v2（9000）YOLO -v3（多尺度）YOLO -v4YOLO -v5 案例实践：基于Faster-RCNN的通用目标检测示例改造成“血细胞识别”系统 Day6下午图像分割与NLP初步图像分割（3）全卷积网络（FCN）上采样的三种实现方式膨胀卷积CRFDeepLab V1~V3 自然语言处理初步（2）语言模型Bi-Gram与N-Gram机械分词与统计分词词性标注命名实体识别情感分析；案例实践：基于YOLO v3的通用目标快速检测示例基于YOLO v3的视频检测基于YOLO v5的目标检测DeepLab的示例 Day7上午RNN与W2V 循环神经网络（1）RNN基本原理LSTM、GRU双向循环神经网络编码器与解码器结构seq2seq模型AttentionNIC模型词向量（3）W2V:CBOWW2V:skip-gramW2V:Hierachical SoftmaxW2V:Negative Sampling 案例实践：股票交易数据的预测；藏头诗生成；《绝代双骄》中，谁和小鱼儿最相似？SnowNLP：褒义的中性词Word2vec代码解读 Day7下午预训练模型基础 Transformer所有你需要的仅仅是“注意力”Transformer中的block自注意力机制多头注意力位置编码（抛弃RNN）Batch Norm与Layer Norm解码器的构造 BERTBERT整体架构Masked-LMNext Sentence Prediction改造下游任务WordPiece作为输入哪些改进起作用？案例实践：手推TransformerBERT代码解读BERT下游任务的改造 Day8上午GPT、GAN GPT“独角兽”的威力GPT的内部架构基于Transformer的改造自注意力机制的改进GPT的应用场景最新的GPT-3 GAN生成对抗网络（GAN）KL散度与JS散度改进的GAN：DCGAN加上约束：infoGAN根本上解决：Wasserstein GAN案例实践：实现一个对话机器人让GPT写一篇散文案例实践：计算机想象的数字特朗普的孩子 Day8下午强化学习强化学习初步agent的属性马尔科夫奖励/决策过程exploration and exploitation状态行为值函数Bellman期望方程最优策略策略迭代与价值迭代蒙特卡洛时序差分法深度强化学习值函数的参数化表示值函数的估计过程深度学习与强化学习的结合基础的DQN 方法Double DQNPrioritized ReplayDueling Network 案例实践：格子世界机器人走迷宫谷底的小车倒立摆笨鸟先飞：DQN 【授课环境】讲课环境要能上网

叶梓：大数据提纲

课程概要

适用对象

课程介绍

叶梓老师的其他课程

相关课程

添加企业微信