两者之间存在着矛盾关系:过早地实行探索大概会导致短期内收益减少;相反,过度依赖于已知信息则大概错失更优解。
〔二〕现有挑战 对于大模型而言,由于参数量浩大、计算资源需求高以及数据复杂度等因素影响,在处理大规模环境时更容易出现以下挑战:
〔三〕搞定方法综述 针对上述挑战,在学术界、工业界已经提出多种改进措施来改良大模型下探索与利用过程:
这些方法各有特点,在不同应用场景中展露出良好效果,接下来咱们将祥明介绍几种典型策略及其应用案例。
公式如下: \〔 \text{Action} = \begin{cases} \arg\max_{a} Q〔s,a〕 & \text{with probability } 〔1-\epsilon〕 \\ \text{Random action} & \text{with probability } \epsilon \\ \end{cases} \〕 其中 \〔 s \〕 表示状态;\〔 a \〕 表示动作;\〔 Q〔s,a〕 \〕 表示状态-动作价值函数值;\〔 \epsilon〔0 < \epsilon < 1〕\〕 是一个小于1概率参数。
〔二〕上置信边界算法 〔UCB〕 UCB 方法通过引入一个根据统计学原理不确定性度量来指导决策过程,它感觉即使某个选项历史表现看起来很好,但倘若不确定是不是真优于其他选项,则仍应继续尝试以降低遗憾值。 \〔 A_t = argmax_a 〔Q_t〔a〕+c\sqrt{\frac{\ln t}{N_t〔a〕}}〕 \〕 其中 \〔 c > 0\〕 是一个常数超参数控制对未知性偏好层次; \〔 t\〕 是总步数; \〔 N_t〔a〕\〕 是在第t次试验中采取行动a次数; \〔 Q_t〔a〕\〕 则表示根据当下知识状态-动作价值估计值。
〔三〕乐观初始值法 〔OIV〕 OIV 假设每个未被访问状态-动作对都具有最大潜在奖励,并以此为基石实行更新迭代直到收敛为止。 \〔 V〔s_0〕=H,\quad V〔s'〕=0,\quad A_0^=\arg\max_a Q〔s_0,a〕,\quad N_{s_0}〔A_0^〕=1,\quad N_{s'}〔A〕=0,\forall A\neq A_0^*.\〕
这种方法有助于迅捷识别出最有前景方向并优先分配更多资源去验证其有效性。
将来伴随技术进步以及理论研究深入相信咱们还将见证更多创新性搞定思路涌现出来进一步推动该领域迅捷发展进程!
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!