Q-Learning 迷宫寻路示例

强化学习算法在迷宫问题中的应用

迷宫环境

起点
终点
智能体
路径
墙壁

算法控制

0
训练回合
0
当前步数
0%
成功率

Q-Learning 算法简介

Q-Learning 是一种无模型的强化学习算法,用于学习在给定状态下采取何种行动能获得最大累积奖励。

算法核心公式:Q(s,a) = Q(s,a) + α [R(s,a) + γ max Q(s',a') - Q(s,a)]

其中:

在本示例中,智能体从起点出发,尝试找到通往终点的最短路径,同时避开墙壁。