当前位置:主页 > 计算机电子书 > 深度学习 > 深度学习下载
深入浅出强化学习:原理入门(含源码)

深入浅出强化学习:原理入门(含源码) PDF 超清版

  • 更新:2023-08-04
  • 大小:112.3 MB
  • 类别:深度学习
  • 作者:郭宪
  • 出版:电子工业出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

《深入浅出强化学习:原理入门(含源码)》以通俗易懂的语言深入浅出地介绍了强化学习的基本原理。本书涵盖了强化学习基本方法和深度强化学习方法,同时还介绍了相应的数学基础和编程实例。作者在阐述思路时明确、清晰易懂,让读者可以轻松理解强化学习的概念和算法。无论是对于初学者还是已经有一定基础的深度学习学习者,这本书都是一本必备的参考书,能够帮助读者深入学习和应用强化学习。

深入浅出强化学习:原理入门

深入浅出强化学习:原理入门

读者评价

总体来说是一本比较好的读物。参考效果很好,讲的也算比较清楚,但是呢,讲得不够细致,很多比较重要的东西都略过了,可能是因为确实篇幅有限吧。还算有些帮助吧。

从马尔科夫决策过程MDP,到决策/动作状态转移概率矩阵已知时的基于模型的动态规划方法,转移概率矩阵未知的基于无模型的强化学习方法。无论转移概率矩阵是否已知,都需要策略迭代算法/值迭代算法/策略搜索算法。就像强化学习(或增强学习)的名字暗示的那样,其中还包括bootstrapping算法。无模型的强化学习中的蒙特卡洛MC算法/时间差分TD算法。连续空间下的值函数逼近算法。顺带补充了一些统计/优化/gym/TensorFlow/Python/强化学习前沿等内容。好书推荐。

这本书行文非常粗糙,数学概念混乱,推导极其不清楚,伪代码很难重复。作为一本讲述强化学习原理的入门书籍,完全不合格。作者似乎缺乏基本的学术写作训练。

显而易见的数学式写一大堆推导,需要解释的给一行。想学强化学习的去看david silver或者别的书吧,这真是吹牛皮,当免费专栏还可以,这种水平来卖钱真是算了

内容介绍

《深入浅出强化学习:原理入门》用通俗易懂的语言深入浅出地介绍了强化学习的基本原理,覆盖了传统的强化学习基本方法和当前炙手可热的深度强化学习方法。开篇从最基本的马尔科夫决策过程入手,将强化学习问题纳入到严谨的数学框架中,接着阐述了解决此类问题最基本的方法——动态规划方法,并从中总结出解决强化学习问题的基本思路:交互迭代策略评估和策略改善。

基于这个思路,分别介绍了基于值函数的强化学习方法和基于直接策略搜索的强化学习方法。最后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。

除了系统地介绍基本理论,书中还介绍了相应的数学基础和编程实例。因此,《深入浅出强化学习:原理入门》既适合零基础的人员入门学习、也适合相关科研人员作为研究参考。

目录

  • 1 绪论 1
  • 第一篇 强化学习基础 17
  • 2 马尔科夫决策过程 18
  • 3 基于模型的动态规划方法 36
  • 第二篇 基于值函数的强化学习方法 57
  • 4 基于蒙特卡罗的强化学习方法 58
  • 5 基于时间差分的强化学习方法 75
  • 6 基于值函数逼近的强化学习方法 88
  • 第三篇 基于直接策略搜索的强化学习方法 125
  • 7 基于策略梯度的强化学习方法 126
  • 8 基于置信域策略优化的强化学习方法 142
  • 9 基于确定性策略搜索的强化学习方法 165
  • 10 基于引导策略搜索的强化学习方法 171
  • 第四篇 强化学习研究及前沿 185
  • 11 逆向强化学习 186
  • 12 组合策略梯度和值函数方法 202
  • 13 值迭代网络 207
  • 14 基于模型的强化学习方法:PILCO及其扩展 214

资源下载

资源下载地址1:https://pan.baidu.com/s/1ECNBCFYAi_uCxllKxLxCsA

相关资源

网友留言

网友NO.37062
邹嫣然

强化学习的特征 强化学习与有监督学习有几分相似,但它并不存在明确的答案或者标签,而有一个看上去类似但实则大相径庭的概念——报酬。 下面以踢足球的进攻为例,把强化学习和有监督学习的区别再讲清楚一点。为了完成一次进攻,球员需要完成传球、运球、假动作等等一系列的步骤。 对于有监督学习来说就是,你进行每一个步骤时都能听到场外一个个观众在讨论,“我觉得向左后方传球是个不错的办法”、“我觉得向右前方运球推进简直是胡来”等等,然后球员根据听到的讨论进行决策,然后通过完成这一系列的决策从而最终进球。 而对于强化学习来说,它只知道进球的报酬是3分,获得一次罚球机会的报酬是2分,绕过一名防守球员的报酬是1分,被断球的报酬是-2分等等。具体到每一个步骤到底如何抉择才是最好的,就没有人告诉它了,他只能在脑海中不断演算分析、推倒重来,最后学习得到每一个步骤的最佳决策。 那么到底如何才能根据最后的报酬推导出每一次阶段性决策的评价得分呢?显然,我们只能进行逆向推导。

网友NO.40137
沃子昂

强化学习算法: 根据策略是否是随机的,分为确定性策略强化学习和随机性策略强化学习。 根据转移概率是否已知可以分为基于模型的强化学习算法和无模型的强化学习算法。 根据回报函数是否已知,可以分为强化学习和逆向强化学习。逆向强化学习是根据专家实例将回报函数学出来。