叶梓：强化学习与深度强化学习

叶梓专家讲师 671查看

课程概要

培训时长 : 3天

课程价格 : 扫码添加微信咨询

课程分类 : 人工智能

课程编号 : 10017

联系老师

适用对象

计算机相关专业本科；或理工科本科，具备初步的IT基础知识的人员

课程介绍

【课程简介】

强化学习是当前最热门的研究方向之一，广泛应用于机器人学、电子竞技等领域。本课程系统性的介绍了强化学习（深度强化学习）的基本理论和关键算法，包括：马尔科夫决策过程、动态规划法、蒙特卡罗法、时间差分法、值函数逼近法，策略梯度法等；以及该领域的最新前沿发展，包括：DQN及其变种、信赖域系方法、Actor-Critic类方法、多Agent深度强化学习等；同时也介绍大量的实际案例，包括深度强化学习中最著名的工程应用：Alpha Go。

【课程对象】

计算机相关专业本科；或理工科本科，具备初步的IT基础知识的人员

第一天强化学习

第一课强化学习综述

1.强化学习要解决的问题

2.强化学习方法的分类

3.强化学习方法的发展趋势

4.环境搭建实验（Gym，TensorFlow等）

5.Gym环境的基本使用方法

第二课马尔科夫决策过程

1.基本概念：马尔科夫性、马尔科夫过程、马尔科夫决策过程

2.MDP基本元素:策略、回报、值函数、状态行为值函数

3.贝尔曼方程

4.最优策略

案例：构建机器人找金币和迷宫的环境

第三课基于模型的动态规划方法

1.动态规划概念介绍

2.策略评估过程介绍

3.策略改进方法介绍

4.策略迭代和值迭代

案例：实现基于模型的强化学习算法

第四课蒙特卡罗方法

1.蒙特卡罗策略评估

2.蒙特卡罗策略改进

3.基于蒙特卡罗的强化学习

4.同策略和异策略

案例：利用蒙特卡罗方法实现机器人找金币和迷宫

第五课时序差分方法

1.DP，MC和TD方法比较

2.MC和TD方法偏差与方差平衡

3.同策略TD方法：Sarsa 方法

4.异策略TD方法：Q-learning 方法

案例：Q-learning和Sarsa的实现

第二天从强化学习到深度强化学习

第一课基于值函数逼近方法（强化学习）

1.维数灾难与表格型强化学习

2.值函数的参数化表示

3.值函数的估计过程

4.常用的基函数

第二课基于值函数逼近方法（深度学习与强化学习的结合）

1.简单提一下深度学习

2.深度学习与强化学习的结合

3.DQN 方法介绍

4.DQN变种：Double DQN, Prioritized Replay, Dueling Network

案例：用DQN玩游戏——flappy bird

第三课策略梯度方法（强化学习）

1.策略梯度方法介绍

2.常见的策略表示

3.常见的减小方差的方法:引入基函数法，修改估计值函数法

案例：利用gym和tensorflow实现小车倒立摆系统等

第四课 Alpha Go（深度学习与强化学习的结合）

1.MCTS

2.策略网络与价值网络

3.Alpha Go的完整架构

第五课 GAN（深度学习）

1.VAE与基本GAN

2.DCGAN

3.WGAN

案例：生成手写数字的GAN

第三天深度强化学习进阶

第一课 AC类方法-1

1. PG的问题与AC的思路

2. AC类方法的发展历程

3. Actor-Critic基本原理

第二课 AC类方法-2

1. DPG方法

2. DDPG方法

3. A3C方法

案例：AC类方法的案例

第三课信赖域系方法-1

1.信赖域系方法背景

2.信赖域系方法发展路线图

3.TRPO方法

案例：TRPO方法的案例

第四课信赖域系方法-2

1.PPO方法

2.DPPO方法简介

3.ACER方法

案例：PPO方法的案例

第五课多Agent强化学习

1.矩阵博弈

2.纳什均衡

3.多人随机博弈学习

4.完全合作、完全竞争与混合任务

5.MADDPG

案例：MADDPG的案例等

叶梓老师的其他课程

• 叶梓：计算机视觉的深度学习实践: 【课程简介】在所有人工智能的应用方向上，计算机视觉/机器视觉图像处理的落地应用最为成熟，近两年的技术发展是最为迅猛。以互联网巨头为代表的企业正在开展如：基于识别的智能机器人，无人驾驶，人脸识别、图像搜索，图像处理，游戏界面等；专门从事视觉、图像处理的新兴公司正在发力于人脸识别，检测，跟踪，安防等领域。只有对计算机视觉这个领域有了一个初步的全面了解才能在这些领域进行研究，一步步深入下去。【课程目标】计算机视觉领域的重点研究问题。由浅入深得讲解数字图像的存储、预处理、特征提取，以及在深度学习兴起之前计算机视觉领域所取得的成就。专门介绍深度学习的基础理论知识，包括神经网络的基本原理，以及深度学习对于传统神经网络的关键改进。重点介绍深度学习模型在计算机视觉领域的应用。具体涉及在计算机视觉领域如何应用卷积神经网络（CNN)、区域卷积网络（R-CNN) 全卷积网络（FCN)、循环神经网络（RNN)、长短时记忆单元（LSTM)、生成对抗网络 (GAN)等解决图像应用的难点课程将使用Python语言及Tensorflow、Keras 深度学习框架等进行案例实践教学。第一讲课程概述1、计算机视觉的研究意义2、计算机视觉的难点3、当前研究的主要热点问题（分类、目标检测、实例分割、图说等）4、本课程的主要内容介绍5、相关开源库介绍（OpenCV、Tensorflow、Keras、pyTorch等）6、应用案例：搭建tensorflow+opencv的环境第二讲图像预处理1、图像平滑与去噪（高斯滤波、中值滤波等）2、基于直方图的对比度增强:CLAHE3、边缘检测算子（Sobel、拉普拉斯等）4、形态学处理（腐蚀、膨胀、开闭运算等）5、高斯金字塔与拉普拉斯金字塔6、频域分析及变换（卷积计算、傅里叶变换、小波变换）7、应用案例：平滑、边缘检测、CLAHE、FFT等第三讲图像特征提取1、颜色特征（量化直方图、聚类直方图）2、几何特征（Edge、Corner、Blob等）3、Harris角点与FAST角点4、基于关键点的特征描述子（SIFT、SURF、ORB）5、其他特征提取（LBP、Gabor）6、应用案例：SIFT、图像拼接等第四讲未有深度学习之前1、基于灰度的图像分割（阈值分割、区域生长、分水岭等）2、基于图论：graph-cut与grab-cut3、用于人脸检测的Haar-like特征与级联分类器4、用于行人检测的HOG+SVM5、用于行人检测的多尺度形变部件模型（DPM）6、应用案例：人脸识别、行人识别第五讲神经网络与误差反向传播算法1、人工神经元及感知机模型2、目标函数（MSE）3、激励函数（sigmoid、tanh）4、误差反向传播算法的推导5、应用案例：可以手算的BP神经网络6、深度学习与神经网络的区别与联系第六讲深度学习基础1、深度学习中的目标函数与激励函数2、深度学习中的求解方法（Adagrad、RMSprop、Adam等）3、深度学习中的技巧（dropout、BN、weights decay等）4、应用案例：利用tensorflow实现的手写数字识别5、卷积神经网络介绍6、卷积层的误差反向传播7、池化层的误差反向传播第七讲图像分类1、竞赛中的分类问题2、CNN的发展概述3、开山之作：AlexNet4、5层变为5组：VGG5、组合所有可能的模型：GoogLeNet6、残差网络：ResNet7、深与宽之外的改进方向：ResNext6、应用案例：VGG、ResNet 第八讲图像检索1、检索特征（基于颜色，纹理，形状，局部特征）2、特征相似度度量（EMD）3、建立基于深度学习的检索索引4、知识点：迁移学习的一种实现（fine-tune）5、索引加速：KD-tree6、大数据条件下的索引加速：Locality Sensitive Hash7、应用案例：CBIR的应用第九讲目标检测（上）1、目标检测任务概述2、区域卷积神经网络：R-CNN3、共享卷积层与多尺度：SPP-Net4、多任务的目标函数：Fast R-CNN5、SS改成RPN：Faster R-CNN6、其他数据集介绍：行人检测、人脸检测7、应用案例：Faster R-CNN 第十讲目标检测（下）1、之前方法的总结2、ROI-wise子网继续共享：R-FCN3、回归解决一切：YOLO v14、八大改进：YOLO v25、构建语义树：YOLO 90006、多尺度预测：YOLO v37、应用案例：Darknet实现的YOLO 第十一讲通用场景下的图像分割1、语义分割2、全卷积网络语义分割：FCN3、知识点：反卷积、转置卷积与空洞（膨胀）卷积4、DeepLab v1（含CRF）5、DeepLab v2（多尺度）6、DeepLab v3与v3+(多尺度级联)7、PASCAL VOC、MS COCO、Cityscapes等数据集介绍8、应用案例：DeepLab、denseCRF 第十二讲医疗影像分割1、医学影像分析任务概述与数据集2、U-Net3、3D U-NET与V-Net4、FC-DenseNet5、病理切片分析任务概述与数据集6、病理切片分析的实现7、应用案例：利用U-Net实现的器官分割第十三讲图像描述（图说）1、深度学习的语言模型（RNN）2、知识点介绍；LSTM与GRU3、图说模型原理与结构4、模型增强：注意力机制5、图说效果的评判标准6、数据集介绍（MS COCO， Flickr等）7、应用案例：RNN简单示例，图像描述：show and Tell 第十四讲图像生成1、变分自编码器（VAE）2、生成对抗网络（GAN）3、知识点：KL散度与JS散度4、改进的GAN：DCGAN5、从根本上解决训练的困难：Wasserstein GAN6、超分辨率问题：SRGAN7、应用案例：GAN与DCGAN等

• 叶梓：计算机视觉: 【课程对象】理工科本科及以上，且至少了解一门编程语言。【课程大纲】（培训内容可根据客户需求调整）时间内容案例实践与练习Day1上午准备工作准备工作决策树准备工作（1）概念与术语Python（Anaconda）的安装Pycharm的安装与使用Jupyter Notebook的安装与使用Tensorflow与pytorch的安装Opencv、Sklearn工具包的运用 Python开发简介（2）Python的基本语法引入外部包常用的数据结构定义函数Python中的面向对象编程文件读写决策树（3）分类和预测熵减过程贪心法ID3与C4.5其他改进方法决策树剪枝案例实践：Anaconda安装Pip install的技巧Tensorflow-GPU的安装pytorch的安装Jupyter Notebook的使用Opencv的基本例子Day1下午基础模型聚类BP神经网络性能评价指标聚类（4）监督学习与无监督学习K-meansk-medoids判断最优聚类个数的调参方法基于层次、密度、网格的方法 BP神经网络（5）人工神经元及感知机模型Sigmoid激活函数前向神经网络的架构梯度下降误差反向传播详解性能评价指标（6）精确率；P、R与F1ROC与AUC对数损失泛化性能评价：k折验证验证案例实践：验证一下：聚类算法是不稳定的手肘法分析NBA球队的最佳聚类个数各种聚类方式的图形化展示皮马印第安人糖尿病风险：验证多种模型绘制ROC并计算AUC手算神经网络BP算法只用numpy，手推BPNNDay2上午深度学习基础支持向量机集成学习支持向量机（1）“双螺旋”问题基本模型与惩罚项求解对偶问题核函数：映射到高维从二分类到多分类用于连续值预测的支持向量机集成学习（2）bagging与boostingRFGBDTXgboost最新的模型案例实践：SVM实现人脸识别应用通过深度BP网络实现手写数字的识别各种梯度下降方法的实战效果Batch normalization的实战效果Day2下午深度学习深度学习基础知识图像分类CNN深度学习基础知识（3）连接主义的兴衰深度学习与神经网络的区别与联系目标函数与激励函数学习步长权重初始化权重衰减（Weight Decay）梯度下降的方法：Adagrad \ RMSprop \ Adam避免过适应图像分类CNN（4）图像分类概述AlexNetZF-Net卷积层的误差反向传播池化层的误差反向传播VGG（5层变为5组）迁移学习GoogLenet和Inception模块模型退化与ResNetDenseNet（充分利用特征）最新的efficientnet 案例实践：VGG各层的可视化展现迁移学习：识别猫和狗Resnet用于图像分类Day3上午目标检测二阶段目标检测与一阶段目标检测二阶段目标检测（1）目标检测项目介绍R-CNNSPPNET（全图卷积、SPP层）Fast-RCNN（多任务）Faster-RCNN（RPN）一阶段目标检测（2）YOLO-v1（一切都是回归）YOLO -v2（9000）YOLO -v3（多尺度）YOLO -v4YOLO -v5 案例实践：基于Faster-RCNN的通用目标检测示例基于YOLO v3的通用目标快速检测示例 Day3下午深度学习进阶图像分割人体姿态识别与GAN 图像分割（3）全卷积网络（FCN）上采样的三种实现方式膨胀卷积CRFDeepLab V1~V3 人体姿态识别（4）早期人体姿态识别AlphaPoseOpenPoseRMPE GAN（5）生成对抗网络（GAN）KL散度与JS散度改进的GAN：DCGAN加上约束：infoGAN根本上解决：Wasserstein GAN案例实践：DeepSOCIALRMPE的演示

• 叶梓：机器学习与深度学习培训: 【课程简介】人工智能的浪潮正在席卷全球，各种培训课程应运而生，但真正能让学员系统、全面掌握知识点，并且能学以致用的实战课程并不多见。本课程包含机器学习、深度学习的重要概念及常用算法（决策树、关联规则、聚类、贝叶斯网络、神经网络、支持向量机、隐马尔科夫模型、遗传算法、CNN、RNN、GAN等），以及人工智能领域当前的热点。通过6天的系统学习、案例讲解和动手实践，让学员能初步迈入机器学习和深度学习的知识殿堂。【课程收益】掌握数据挖掘与机器学习基本知识；掌握数据挖掘与机器学习进阶知识；掌握深度学习的理论与实践；掌握Python开发技能；掌握深度学习工具：TensorFlow、Keras等；为学员的后续项目应用提供针对性的建议。【课程特点】本课程力图理论结合实践，强调从零开始，重视动手实践；课程内容以原理讲解为根本，以应用落地为目标。课程通过大量形象的比喻和手算示例来解释复杂的机器学习理论，既能将原理充分讲懂讲透，也避免了繁复而枯燥的公式推导。【课程对象】计算机相关专业本科；或理工科本科，且至少熟悉一门编程语言。【学员基础】具备初步的IT基础知识【课程大纲】（培训内容可根据客户需求调整）时间内容案例实践与练习Day1初识机器学习上午概述入门数据预处理概述（第一天——1）概念与术语（人工智能、数据挖掘、机器学习）数据挖掘的对象数据挖掘的关键技术知识的表达Python的安装数据预处理（第一天——2）数据清理规范化模糊集粗糙集无标签时：PCA有标签时：Fisher线性判别数据压缩（DFT、小波变换）案例实践：python安装Tensorflow安装PCA的实验DFT的实验Day1初识机器学习下午回归与时序分析决策树回归与时序分析（第一天——3）线性回归非线性回归logistics回归平稳性、截尾与拖尾ARIMA 决策树（第一天——4）分类和预测熵减过程与贪心法ID3C4.5其他改进方法决策树剪枝案例实践：回归的实验ARIMA预测实验决策树的实验 Day2机器学习中的典型算法上午聚类关联规则朴素贝叶斯与KNN聚类（第二天——1）监督学习与无监督学习K-means与k-medoids层次的方法基于密度的方法基于网格的方法孤立点分析关联规则（第二天——2）频繁项集支持度与置信度提升度Apriori性质连接与剪枝朴素贝叶斯与KNN（第二天——3）KNN概率论基础：条件概率、联合概率、分布、共轭先验。“概率派”与“贝叶斯派”朴素贝叶斯模型案例实践：鸢尾花数据的聚类超市购物篮——关联规则分析朴素贝叶斯案例：皮马印第安人患糖尿病的风险Day2机器学习中的典型算法下午极大似然估计与EM算法性能评价指标极大似然估计与EM算法（第二天——4）极大似然估计对数似然函数EM算法性能评价指标（第二天——5）准确率；精确率、召回率；F1真阳性率、假阳性率混淆矩阵ROC与AUC对数损失Kappa系数回归：平均绝对误差、平均平方误差聚类：兰德指数、互信息k折验证案例实践：正态分析的参数估计EM算法应用案例：双正态分布的参数估计绘制ROC并计算AUC、F1绘制拟合曲线，计算拟合优度Day3神经网络专题上午BP神经网络模拟退火算法与其他神经网络BP神经网络（第三天——1）人工神经元及感知机模型前向神经网络sigmoid径向基函数神经网络误差反向传播模拟退火算法与其他神经网络（第三天——2）模拟退火算法Hopfield网络自组织特征映射神经网络（SOM）受限布尔兹曼机案例实践：可以手算的神经网络神经网络模拟一个圆锥曲面“货郎担”问题（模拟退火算法）识别破损的字母（Hopfield网络）聚类的另一种解法（SOM）Day3神经网络专题下午机器学习中的最优化方法遗传算法机器学习中的最优化方法（第三天——3）参数学习方法损失函数（或目标函数）梯度下降随机梯度下降牛顿法拟牛顿法遗传算法（第三天——4）种群、适应性度量交叉、选择、变异基本算法案例实践：随机梯度下降的例子牛顿法求Rosenbrock(香蕉函数)的极值“同宿舍”问题：遗传算法 Day4机器学习进阶上午支持向量机隐马尔科夫模型支持向量机（第四天——1）统计学习问题支持向量机核函数多分类的支持向量机用于连续值预测的支持向量机隐马尔科夫模型（第四天——2）马尔科夫过程隐马尔科夫模型三个基本问题（评估、解码、学习）前向-后向算法Viterbi算法Baum-Welch算法案例实践：SVM：iris的三个分类HMM示例：天气与地表积水、罐中的彩球HMM之前向算法：掷骰子的序列HMM之viterbi算法：是否生病了？Day4机器学习进阶下午文本挖掘从LSA到LDA文本挖掘（第四天——3）1、文本分析功能2、文本特征的提取4、TF-IDF5、文本分类5、文本聚类从LSA到LDA（第四天——3）LSApLSALDA 案例实践：英文文本分析；中文文本分析：《绝代双骄》中文语句情感分析LSA和LDA的比较 Day5机器学习进阶与深度学习初步上午利用无标签的样本集成学习利用无标签的样本（第五天——1）半监督学习直推式学习主动学习集成学习（第五天——2）baggingco-trainingadaboost随机森林GBDT案例实践：半监督学习：SVM标签扩展；主动学习：手写数字3、bagging、adaboost、RF、GBDT的例子Day5机器学习进阶与深度学习初步下午强化学习深度学习-1强化学习（第五天——3）agent的属性exploration and exploitationBellman期望方程最优策略策略迭代与价值迭代Q学习算法深度学习-1（第五天——4）连接主义的兴衰深度学习与神经网络的区别与联系目标函数激励函数学习步长案例实践：强化学习示例：走迷宫强化学习：谷底的小车深度学习示例：模式识别Day6深度学习上午深度学习-2深度学习-3深度学习-2（第六天——1）优化算法AdagradRMSpropAdam避免过适应深度学习-3（第六天——2）典型应用场景CNN各种CNNRNNLSTM、GRU案例实践：CNN的准备示例CNN处理MNIST手写数字数据集RNN准备示例RNN分析股票趋势LSTM的准备示例 Day6深度学习下午深度学习-4GANDQN 案例实践：DQN结合CNN：“flappy bird” 【授课环境】讲课环境要能上网

叶梓：强化学习与深度强化学习

课程概要

适用对象

课程介绍

叶梓老师的其他课程

相关课程

添加企业微信