欢迎来到哪里有培训网!   [会员登录]  [讲师注册]  [机构注册] 网站首页  上海培训班  上海职业培训  上海讲师  上海培训机构  名师博客 
热门: 销售精英  微信营销  班组长  中高层
  • 营销管理
  • 人力资源
  • 生产研发
  • 采购物流
  • 财务管理
  • 战略管理
  • 领导艺术
  • 综合技能
  • 其它课程
  • 线上课程
  • 品牌管理
  • 营销策划
  • 销售技巧
  • 门店管理
  • 网络营销
  • 客户服务
  • 电话销售
  • 销售团队
  • 渠道销售
  • 国际贸易
  • 商务谈判
  • 合同管理
  • 顾问式销售
  • 大客户销售
  • 经销商管理
  • 大数据营销
  • 客户投诉
  • 新媒体营销
  •  
    您现在的位置:首页 > 年度培训计划 > 其它课程
    N70065029 强化学习与深度强化学习 2134
    课程描述:

    强化学习是当前最热门的研究方向之一,广泛应用于机器人学、电子竞技等领域。本课程系统性的介绍了强化学习(深度强化学习)的基本理论和关键算法,包括:马尔科夫决策过程、动态规划法、蒙特卡罗法、时间差分法、值函数逼近法,策略梯度法等;以及该领域的最新前沿发展,包括:DQN及其变种、信赖域系方法、Actor-Critic类方法、多Agent深度强化学习等;同时也介绍大量的实际案例,包括深度强化学习中最著名的工程应用:Alpha Go。

    适合人员: IT人士  技术总监  软件工程师  技术主管  研发经理  
    培训讲师: 叶梓
    培训天数: 3天
    培训费用: ¥元

    强化学习课程

    第一天 强化学习
    第一课 强化学习综述
    1.强化学习要解决的问题
    2.强化学习方法的分类
    3.强化学习方法的发展趋势
    4.环境搭建实验(Gym,TensorFlow等)
    5.Gym环境的基本使用方法

    第二课 马尔科夫决策过程
    1.基本概念:马尔科夫性、马尔科夫过程、马尔科夫决策过程
    2.MDP基本元素:策略、回报、值函数、状态行为值函数
    3.贝尔曼方程
    4.最优策略
    案例:构建机器人找金币和迷宫的环境

    第三课 基于模型的动态规划方法
    1.动态规划概念介绍
    2.策略评估过程介绍
    3.策略改进方法介绍
    4.策略迭代和值迭代
    案例:实现基于模型的强化学习算法

    第四课 蒙特卡罗方法
    1.蒙特卡罗策略评估
    2.蒙特卡罗策略改进
    3.基于蒙特卡罗的强化学习
    4.同策略和异策略
    案例:利用蒙特卡罗方法实现机器人找金币和迷宫

    第五课 时序差分方法
    1.DP,MC和TD方法比较
    2.MC和TD方法偏差与方差平衡
    3.同策略TD方法:Sarsa 方法
    4.异策略TD方法:Q-learning 方法
    案例:Q-learning和Sarsa的实现

    第二天 从强化学习到深度强化学习
    第一课 基于值函数逼近方法(强化学习)
    1.维数灾难与表格型强化学习
    2.值函数的参数化表示
    3.值函数的估计过程
    4.常用的基函数

    第二课 基于值函数逼近方法(深度学习与强化学习的结合)
    1.简单提一下深度学习
    2.深度学习与强化学习的结合
    3.DQN 方法介绍
    4.DQN变种:Double DQN, Prioritized Replay, Dueling Network
    案例:用DQN玩游戏——flappy bird
    第三课 策略梯度方法(强化学习)
    1.策略梯度方法介绍
    2.常见的策略表示
    3.常见的减小方差的方法:引入基函数法,修改估计值函数法
    案例:利用gym和tensorflow实现小车倒立摆系统等

    第四课 Alpha Go(深度学习与强化学习的结合)
    1.MCTS
    2.策略网络与价值网络
    3.Alpha Go的完整架构
    第五课 GAN(深度学习)
    1.VAE与基本GAN
    2.DCGAN
    3.WGAN
    案例:生成手写数字的GAN

    第三天 深度强化学习进阶
    第一课 AC类方法-1
    1. PG的问题与AC的思路
    2. AC类方法的发展历程
    3. Actor-Critic基本原理
    第二课 AC类方法-2
    1. DPG方法
    2. DDPG方法
    3. A3C方法
    案例:AC类方法的案例

    第三课 信赖域系方法-1
    1.信赖域系方法背景
    2.信赖域系方法发展路线图
    3.TRPO方法
    案例:TRPO方法的案例

    第四课 信赖域系方法-2
    1.PPO方法
    2.DPPO方法简介
    3.ACER方法
    案例:PPO方法的案例

    第五课 多Agent强化学习
    1.矩阵博弈
    2.纳什均衡
    3.多人随机博弈学习
    4.完全合作、完全竞争与混合任务
    5.MADDPG
    案例:MADDPG的案例等

    强化学习课程

      本课程名称:强化学习课程
    参加课程日期:    
    公司名称: 联系人:
    手机: 座机电话:
    在线QQ: 参训人数:  人
    备注:
         
      付款方式
    已开课时间:
      上一篇:专业进阶深度学习人工智能
      下一篇:社群新零售培训
     
     
     
    叶梓
    会员可见
    会员可见
    会员可见
     
    培训类型:
    培训费用:
    培训地址:
    适合人员:
    培训时间:
    关键词:
     
       
    推荐公开课
     
    《销售精英强化训练》 王越
    其它课程培训
     
    家庭幸福与企业和谐之道 于默洋
    80、90后员工职业素养提 张金洋
    完美合同-采购及销售人员合 田老师
    NPI-新产品导入 丁老师
    结构化思维—高效人士的思考 姚苏阳
    “二手车鉴定评估师”国家职 培训专
    “智能楼宇管理师”国家职业 培训专
    “汽车修理工(一级)”国家 培训专
    “理财规划师”国家职业资格 培训专
    “公共营养师、健康管理师” 培训专
    其它课程内训
     
    《互联网思维下企业服 陈元方
    证件反假秒杀 陈国辉
    精细化集中入住管理 闫爱军
    非技术人员的通信技术应用和 闵新闻
    家族企业经营管理培训 胡一夫
    什么是健康真理 张金波
    现代餐饮《行政总厨》筹备运 权威师资
    提升工作效率 葛军
    其它课程视频
    其它课程文章
     
    职场中的小公主和心机女能用 戴万平
    来自诚儒学员拿到证书的分享 河南诚
    越迷茫时,越要付诸行动 浮咏晨
    打造财富的步骤和关键要素 吴越舟
    不好的形象会为职业生涯减分 赵晓东
    几招非常实用的高情商拒酒术 马雅娜
    职场困惑应酬如何拒绝喝酒? 周子人
    办公室丢东西正常吗? 周子人
    同事请吃饭,事后让AA 杨浩
    如何消除临考恐慌 苏州智
    其它课程讲师