Q-Learning 迷宫寻路示例

强化学习算法在迷宫问题中的应用

迷宫环境

起点

终点

智能体

路径

墙壁

算法控制

学习率 (α): 0.1

折扣因子 (γ): 0.9

探索率 (ε): 0.1

0

训练回合

0

当前步数

0%

成功率

Q-Learning 算法简介

Q-Learning 是一种无模型的强化学习算法，用于学习在给定状态下采取何种行动能获得最大累积奖励。

算法核心公式：Q(s,a) = Q(s,a) + α [R(s,a) + γ max Q(s',a') - Q(s,a)]

其中：

Q(s,a): 在状态s下采取行动a的价值
α: 学习率，控制新信息覆盖旧信息的程度
R(s,a): 在状态s下采取行动a获得的即时奖励
γ: 折扣因子，衡量未来奖励的重要性
max Q(s',a'): 下一状态s'中所有可能行动的最大Q值

在本示例中，智能体从起点出发，尝试找到通往终点的最短路径，同时避开墙壁。