暂无介绍
引言 在强化学习领域,时间差分〔Temporal Difference, TD〕学习是一种重点方法,它结合动态规划、蒙特卡洛方法优点,能够在不完全晓得环境模型情况下实行学习,TD学习核心思想是利用当下状态估计值来更新将来状态估计值,而不是等到整个序列结束再实行更新,这种在线学习方法使得TD算法能够更