线性MDP模型允许对价值函数进行函数拟合,以解决强化学习问题。在该模型中,线性函数拟合不会引入偏差,并能定量分析轻微偏离线性MDP模型时产生的偏差大小。其关键在于考虑函数拟合的函数容量,当容量过大可能导致稀疏性问题,即在状态附近缺少样本,难以估计准确价值函数;反之,容量过小则可能产生误设问题,即所使用的函数族不足以表示真实价值函数。
为了设计有效的算法,探索(探索与利用之间的权衡)问题变得至关重要。探索问题可以类比为如何有效估计转换函数/矩阵。文章提出使用Least-Square Value Iteration(LSVI)+ Upper-Confidence Bound(UCB)算法。算法分为两步,先通过LSVI估计价值函数,再通过UCB调整探索与利用策略。
LSVI算法基于动态规划原理,对未知转换函数进行最小化MSE估计,并将状态空间和动作空间大的情况投影到d维空间,限制为线性模型。通过求解闭式解,找到最优Q函数。
UCB算法考虑历史数据中每个状态动作对的访问次数,并将其投影到特征空间,计算出具体的访问次数。在非表格MDP情况下,此计数相当于将历史数据的特征向量投影到特定空间,以此进行探索。
文章提出了理论结果,如果实际MDP满足线性MDP假设,则可获得后悔界。若存在误设,即实际MDP与线性MDP假设有所偏差,则后悔界包含与时间T线性相关的项。
算法的核心机制在于使用样本估计转换函数,能够逼近完美的贝尔曼操作。通过简化分析,算法的更新步骤与优化过程紧密相关,其中关键在于奖励函数与转换函数的处理。
奖励函数处理基于线性MDP假设,简化分析后发现,算法中的更新步骤与优化过程中的关键元素紧密匹配,从而能够逼近完美操作。UCB探索奖励采用Hoeffding型,调整为Bernstein型后悔分析可能有助于减少计算复杂度。
总的来说,线性MDP模型提供了一种有效方法,通过线性函数拟合解决MDP问题,同时设计了有效的算法框架,包括LSVI和UCB,以解决探索与利用之间的权衡问题,并提供了理论结果以指导算法的性能分析。