动态规划

暂无介绍

文章

0推荐

134浏览

大模型强化学习中的时间差分（TD）学习是如何实现的？

引言在强化学习领域，时间差分〔Temporal Difference, TD〕学习是一种重点方法，它结合动态规划、蒙特卡洛方法优点，能够在不完全晓得环境模型情况下实行学习，TD学习核心思想是利用当下状态估计值来更新将来状态估计值，而不是等到整个序列结束再实行更新，这种在线学习方法使得TD算法能够更

0
admin 发布于 2025-10-18 08:30