暂无介绍
引言 在强化学习〔Reinforcement Learning, RL〕领域,当面对高维状态空间与动作空间时,处理起来往往会遇到一系列挑战,这些挑战不止涵盖算法本身复杂性增加,还涵盖如何有效地利用有限计算资源来应对浩大状态、动作组合,本文旨在探讨大模型强化学习在处理高维状态空间与连续动作空间难题时所