首页 > 解决方案 > 为什么要将马尔可夫属性引入强化学习?

问题描述

作为深度强化学习的初学者,我很困惑为什么我们应该在强化学习中使用马尔可夫过程,以及它给强化学习带来了什么好处。此外,马尔可夫过程要求在“已知”条件下,“现在”与“未来”无关。为什么一些深度强化学习算法可以使用 RNN 和 LSTM?这是否违反了马尔可夫过程的假设?

标签: deep-learningreinforcement-learningmarkov

解决方案


马尔可夫属性用于优化过程中的数学练习。但是请记住,它比您想象的更普遍适用。例如,如果在某个棋盘游戏中您需要知道游戏的最后三个状态,这似乎违反了马尔可夫属性;但是,如果您只是将“状态”重新定义为最后三个状态的串联,那么您现在又回到了 MDP 中。


推荐阅读