【课程简介】
强化学习是当前最热门的研究方向之一,广泛应用于机器人学、电子竞技等领域。本课程系统性的介绍了强化学习(深度强化学习)的基本理论和关键算法,包括:马尔科夫决策过程、动态规划法、蒙特卡罗法、时间差分法、值函数逼近法,策略梯度法等;以及该领域的最新前沿发展,包括:DQN及其变种、信赖域系方法、Actor-Critic类方法、多Agent深度强化学习等;同时也介绍大量的实际案例,包括深度强化学习中最著名的工程应用:Alpha Go。
【课程对象】
计算机相关专业本科;或理工科本科,具备初步的IT基础知识的人员
第一天 强化学习
第一课 强化学习综述
1.强化学习要解决的问题
2.强化学习方法的分类
3.强化学习方法的发展趋势
4.环境搭建实验(Gym,TensorFlow等)
5.Gym环境的基本使用方法
第二课 马尔科夫决策过程
1.基本概念:马尔科夫性、马尔科夫过程、马尔科夫决策过程
2.MDP基本元素:策略、回报、值函数、状态行为值函数
3.贝尔曼方程
4.最优策略
案例:构建机器人找金币和迷宫的环境
第三课 基于模型的动态规划方法
1.动态规划概念介绍
2.策略评估过程介绍
3.策略改进方法介绍
4.策略迭代和值迭代
案例:实现基于模型的强化学习算法
第四课 蒙特卡罗方法
1.蒙特卡罗策略评估
2.蒙特卡罗策略改进
3.基于蒙特卡罗的强化学习
4.同策略和异策略
案例:利用蒙特卡罗方法实现机器人找金币和迷宫
第五课 时序差分方法
1.DP,MC和TD方法比较
2.MC和TD方法偏差与方差平衡
3.同策略TD方法:Sarsa 方法
4.异策略TD方法:Q-learning 方法
案例:Q-learning和Sarsa的实现
第二天 从强化学习到深度强化学习
第一课 基于值函数逼近方法(强化学习)
1.维数灾难与表格型强化学习
2.值函数的参数化表示
3.值函数的估计过程
4.常用的基函数
第二课 基于值函数逼近方法(深度学习与强化学习的结合)
1.简单提一下深度学习
2.深度学习与强化学习的结合
3.DQN 方法介绍
4.DQN变种:Double DQN, Prioritized Replay, Dueling Network
案例:用DQN玩游戏——flappy bird
第三课 策略梯度方法(强化学习)
1.策略梯度方法介绍
2.常见的策略表示
3.常见的减小方差的方法:引入基函数法,修改估计值函数法
案例:利用gym和tensorflow实现小车倒立摆系统等
第四课 Alpha Go(深度学习与强化学习的结合)
1.MCTS
2.策略网络与价值网络
3.Alpha Go的完整架构
第五课 GAN(深度学习)
1.VAE与基本GAN
2.DCGAN
3.WGAN
案例:生成手写数字的GAN
第三天 深度强化学习进阶
第一课 AC类方法-1
1. PG的问题与AC的思路
2. AC类方法的发展历程
3. Actor-Critic基本原理
第二课 AC类方法-2
1. DPG方法
2. DDPG方法
3. A3C方法
案例:AC类方法的案例
第三课 信赖域系方法-1
1.信赖域系方法背景
2.信赖域系方法发展路线图
3.TRPO方法
案例:TRPO方法的案例
第四课 信赖域系方法-2
1.PPO方法
2.DPPO方法简介
3.ACER方法
案例:PPO方法的案例
第五课 多Agent强化学习
1.矩阵博弈
2.纳什均衡
3.多人随机博弈学习
4.完全合作、完全竞争与混合任务
5.MADDPG
案例:MADDPG的案例等