不同乐观初始化次数下的各贪婪算法的性能对比

实验条件

环境：50 臂伯努利分布多臂老虎机，每臂真实均值均平均分布于 (0,1)
步数：每次实验 10,000 步。
运行次数：50 次独立实验。
算法：
- 普通贪婪算法（Greedy）
- 固定 \epsilon-greedy
- 退火 \epsilon - greedy
变量：乐观初始化值Q_0 \in[1, 5, 10, 15, 30, 50, 100]

实验目的

验证乐观初始化大小对三类贪婪策略表现的影响。具体关注：

总奖励 (avg_total_reward)
累积 regret (avg_regret, avg_regret_rate)
最优臂命中率 (avg_optimal_rate)
收敛速度 (avg_convergence_steps)

实验结果

实验结论

在 Q_0 = 0 的时候，各算法中退火随机探索贪婪算法表现最好。

但在Q_0 = 1的时候，普通贪婪算法表现最好，且各指标略优于退火随机探索贪婪算法。

但是在 Q_0 值持续上升的时候，负面指标（平均遗憾率，平均遗憾值，平均收敛步数）均上升，直到Q_0=30 的时候，模型已经无法收敛。

而对于正面指标（平均总奖励，平均最优臂选择率，平均收敛率）除了平均最优臂选择率略有波动以外，其他指标与初始Q值设定呈负相关关系，即：初始Q值越高，算法性能越差。

因此我们可以得到这样的一个结论：

对于当前的场景下，奖励符合伯努利分布，奖励在环境中均匀分布时，算法表现当Q_0 = 1时最优，随后随着Q_0的上升而下降(Q_0 \in(1,\infin))。

你可以在这里找到我的学习过程的代码仓库。

The cover picture of the previous content

【具身智能学习阶段性成果 - D20】比较 Thompson Sampling 和 UCB1, Greedy 的性能 | 带修订前后比较

The cover picture of the next content

如何在半小时内编写一个自动给你总结B站视频的AI应用？

Jese__Ki