deep-learning - 为什么要将马尔可夫属性引入强化学习?
问题描述
作为深度强化学习的初学者,我很困惑为什么我们应该在强化学习中使用马尔可夫过程,以及它给强化学习带来了什么好处。此外,马尔可夫过程要求在“已知”条件下,“现在”与“未来”无关。为什么一些深度强化学习算法可以使用 RNN 和 LSTM?这是否违反了马尔可夫过程的假设?
解决方案
马尔可夫属性用于优化过程中的数学练习。但是请记住,它比您想象的更普遍适用。例如,如果在某个棋盘游戏中您需要知道游戏的最后三个状态,这似乎违反了马尔可夫属性;但是,如果您只是将“状态”重新定义为最后三个状态的串联,那么您现在又回到了 MDP 中。
推荐阅读
- assembly - `leal (%rdi,%rdi), %eax` 有什么作用?
- r - 使用不是符号张量/Keras/Cloudml/R 的输入调用层 conv2d_1
- bash - wget 无法在 bash 脚本中建立 SSL 连接
- ruby-on-rails - 如何在 Rails 中使用 Axlsx Gem 创建页眉和页脚?
- git - Git 3向合并具有未提交更改的文件,它是原始版本和另一个文件
- java - How to fix appcompat error in android studio
- java - 使用 Java 将命名空间数据从服务发送到客户端
- sql-server - SSIS 的部署位置
- algorithm - Calculate or Update Average without iteration over time
- angular - How to create angular 6 project from angular cli 7.3.3