当前位置:主页 > 计算机电子书 > 程序设计 > Python下载
Python强化学习实战(含源码)

Python强化学习实战(含源码) PDF 英文原版

  • 更新:2019-09-03
  • 大小:98.5 MB
  • 类别:Python
  • 作者:Sudharsan
  • 出版:机械工业出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

Python强化学习实战:应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习

Python强化学习实战:应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习 PDF+源码

增强学习是这种关键的深度学习方式 ,在智能化体及预测分析等行业有很多运用。这书共13章,包括增强学习的各种各样因素,即智能化体、自然环境、对策和实体模型及其相对服务平台和库;Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配备;马尔可夫链和马尔可夫过程以及与增强学习难题模型相互关系,动态规划的基本要素;蒙特卡罗方式 及其不一样种类的蒙特卡罗分折和控制措施;時间差分信号学习培训、分折、线下/免费在线对策操纵等;多臂赌博机难题及其有关的各种各样探寻对策方式 ;深度神经网络的各种各样基本要素和RNN、LSTM、CNN等神经元网络;深度1增强学习优化算法DQN,及其双DQN和抵抗网络体系结构等改善构架;DRQN及其DARQN;A3C互联网的基础原理及构架;对策系数和提升难题;*后详细介绍了增强学习的*重大进展及其发展方向。

目录

  • 原书前言
  • 第1章 强化学习简介 //1
  • 1.1 什么是强化学习 //1
  • 1.2 强化学习算法 //2
  • 1.3 强化学习与其他机器学习范式的不同 //3
  • 1.4 强化学习的要素 //3
  • 1.4.1 智能体 //3
  • 1.4.2 策略函数 //3
  • 1.4.3 值函数 //4
  • 1.4.4 模型 //4
  • 1.5 智能体环境接口 //4
  • 1.6 强化学习的环境类型 //5
  • 1.6.1 确定性环境 //5
  • 1.6.2 随机性环境 //5
  • 1.6.3 完全可观测环境 //5
  • 1.6.4 部分可观测环境 //5
  • 1.6.5 离散环境 //5
  • 1.6.6 连续环境 //5
  • 1.6.7 情景和非情景环境 //5
  • 1.6.8 单智能体和多智能体环境 //6
  • 1.7 强化学习平台 //6
  • 1.7.1 OpenAI Gym和Universe //6
  • 1.7.2 DeepMind Lab //6
  • 1.7.3 RL-Glue //6
  • 1.7.4 Project Malmo //6
  • 1.7.5 VizDoom //6
  • 1.8 强化学习的应用 //7
  • 1.8.1 教育 //7
  • 1.8.2 医疗和健康 //7
  • 1.8.3 制造业 //7
  • 1.8.4 库存管理 //7
  • 1.8.5 金融 //7
  • 1.8.6 自然语言处理和计算机视觉 //7
  • 1.9 小结 //8
  • 1.10 问题 //8
  • 1.11 扩展阅读 //8
  • 第2章 从OpenAI和TensorFlow入门 //9
  • 2.1 计算机设置 //9
  • 2.1.1 安装Anaconda //9
  • 2.1.2 安装Docker //10
  • 2.1.3 安装OpenAI Gym和Universe //11
  • 2.2 OpenAI Gym //13
  • 2.2.1 基本模拟 //13
  • 2.2.2 训练机器人行走 //14
  • 2.3 OpenAI Universe //16
  • 2.3.1 构建一个视频游戏机器人 //16
  • 2.4 TensorFlow //20
  • 2.4.1 变量、常量和占位符 //20
  • 2.4.2 计算图 //21
  • 2.4.3 会话 //21
  • 2.4.4 TensorBoard //22
  • 2.5 小结 //25
  • 2.6 问题 //25
  • 2.7 扩展阅读 //25
  • 第3章 马尔可夫决策过程和动态规划 //26
  • 3.1 马尔可夫链和马尔可夫过程 //26
  • 3.2 MDP //27
  • 3.2.1 奖励和回报 //28
  • 3.2.2 情景和连续任务 //28
  • 3.2.3 折扣因数 //28
  • 3.2.4 策略函数 //29
  • 3.2.5 状态值函数 //29
  • 3.2.6 状态—行为值函数(Q函数)//30
  • 3.3 Bellman方程和最优性 //30
  • 3.3.1 推导值函数和Q函数的Bellman方程 //31
  • 3.4 求解Bellman方程 //32
  • 3.4.1 动态规划 //32
  • 3.5 求解冰冻湖问题 //38
  • 3.5.1 值迭代 //39
  • 3.5.2 策略迭代 //43
  • 3.6 小结 //45
  • 3.7 问题 //45
  • 3.8 扩展阅读 //46
  • 第4章 基于蒙特卡罗方法的博弈游戏 //47
  • 4.1 蒙特卡罗方法 //47
  • 4.1.1 利用蒙特卡罗方法估计π值 //47
  • 4.2 蒙特卡罗预测 //50
  • 4.2.1 首次访问蒙特卡罗 //51
  • 4.2.2 每次访问蒙特卡罗 //52
  • 4.2.3 利用蒙特卡罗方法玩二十一点游戏 //52
  • 4.3 蒙特卡罗控制 //58
  • 4.3.1 蒙特卡罗探索开始 //58
  • 4.3.2 在线策略的蒙特卡罗控制 //59
  • 4.3.3 离线策略的蒙特卡罗控制 //61
  • 4.4 小结 //62
  • 4.5 问题 //62
  • 4.6 扩展阅读 //63
  • 第5章 时间差分学习 //64
  • 5.1 时间差分学习 //64
  • 5.2 时间差分预测 //64
  • 5.3 时间差分控制 //66
  • 5.3.1 Q学习 //66
  • 5.3.2 SARSA //72
  • 5.4 Q学习和SARSA之间的区别 //77
  • 5.5 小结 //77
  • 5.6 问题 //78
  • 5.7 扩展阅读 //78
  • 第6章 MAB问题 //79
  • 6.1 MAB问题 //79
  • 6.1.1 ε贪婪策略 //80
  • 6.1.2 Softmax探索算法 //82
  • 6.1.3 UCB算法 //83
  • 6.1.4 Thompson采样算法 //85
  • 6.2 MAB的应用 //86
  • 6.3 利用MAB识别正确的广告标识 //87
  • 6.4 上下文赌博机 //89
  • 6.5 小结 //89
  • 6.6 问题 //89
  • 6.7 扩展阅读 //89
  • 第7章 深度学习基础 //90
  • 7.1 人工神经元 //90
  • 7.2 ANN //91
  • 7.2.1 输入层 //92
  • 7.2.2 隐层 //92
  • 7.2.3 输出层 //92
  • 7.2.4 激活函数 //92
  • 7.3 深入分析ANN //93
  • 7.3.1 梯度下降 //95
  • 7.4 TensorFlow中的神经网络 //99
  • 7.5 RNN //101
  • 7.5.1 基于时间的反向传播 //103
  • 7.6 LSTM RNN //104
  • 7.6.1 利用LSTM RNN生成歌词 //105
  • 7.7 CNN //108
  • 7.7.1 卷积层 //109
  • 7.7.2 池化层 //111
  • 7.7.3 全连接层 //112
  • 7.7.4 CNN架构 //112
  • 7.8 利用CNN对时尚产品进行分类 //113
  • 7.9 小结 //117
  • 7.10 问题 //117
  • 7.11 扩展阅读 //118
  • 第8章 基于DQN的Atari游戏 //119
  • 8.1 什么是DQN //119
  • 8.2 DQN的架构 //120
  • 8.2.1 卷积网络 //120
  • 8.2.2 经验回放 //121
  • 8.2.3 目标网络 //121
  • 8.2.4 奖励裁剪 //122
  • 8.2.5 算法理解 //122
  • 8.3 构建一个智能体来玩Atari游戏 //122
  • 8.4 双DQN //129
  • 8.5 优先经验回放 //130
  • 8.6 对抗网络体系结构 //130
  • 8.7 小结 //131
  • 8.8 问题 //132
  • 8.9 扩展阅读 //132
  • 第9章 基于DRQN玩Doom游戏 //133
  • 9.1 DRQN //133
  • 9.1.1 DRQN架构 //134
  • 9.2 训练一个玩Doom游戏的智能体 //135
  • 9.2.1 基本的Doom游戏 //135
  • 9.2.2 基于DRQN的Doom游戏 //136
  • 9.3 DARQN //145
  • 9.3.1 DARQN架构 //145
  • 9.4 小结 //145
  • 9.5 问题 //146
  • 9.6 扩展阅读 //146
  • 第10章 A3C网络 //147
  • 10.1 A3C //147
  • 10.1.1 异步优势行为者 //147
  • 10.1.2 A3C架构 //148
  • 10.1.3 A3C的工作原理 //149
  • 10.2 基于A3C爬山 //149
  • 10.2.1 TensorBoard中的可视化 //155
  • 10.3 小结 //158
  • 10.4 问题 //158
  • 10.5 扩展阅读 //158
  • 第11章 策略梯度和优化 //159
  • 11.1 策略梯度 //159
  • 11.1.1 基于策略梯度的月球着陆器 //160
  • 11.2 DDPG //164
  • 11.2.1 倒立摆 //165
  • 11.3 TRPO //170
  • 11.4 PPO //173
  • 11.5 小结 //175
  • 11.6 问题 //175
  • 11.7 扩展阅读 //175
  • 第12章 Capstone项目—基于DQN的赛车游戏 //176
  • 12.1 环境封装函数 //176
  • 12.2 对抗网络 //179
  • 12.3 回放记忆 //180
  • 12.4 训练网络 //181
  • 12.5 赛车游戏 //186
  • 12.6 小结 //189
  • 12.7 问题 //189
  • 12.8 扩展阅读 //189
  • 第13章 最新进展和未来发展 //190
  • 13.1 I2A //190
  • 13.2 基于人类偏好的学习 //193
  • 13.3 DQfd //194
  • 13.4 HER //195
  • 13.5 HRL //196
  • 13.5.1 MAXQ值函数分解 //196
  • 13.6 逆向强化学习 //198
  • 13.7 小结 //199
  • 13.8 问题 //199
  • 13.9 扩展阅读 //199
  • 附录 知识点 //200

资源下载

资源下载地址1:https://pan.baidu.com/s/1pre4LIPKHcmbkcmYiKS9gw

相关资源

网友留言