一句话定义
计算机科学和决策理论的经典问题:面前多台老虎机中奖率不同且未知,有限硬币如何分配——是 探索与利用的权衡 的数学母题。
来源
详细解释
- 你不知道哪台机器中奖率高;硬币代表有限的时间和精力。
- 两种策略:
- 探索:试没玩过的机器——可能输钱,但也可能发现超级大奖机器。
- 利用:守住已知中奖率不错的机器,反复玩。
- 学术界提出多种算法(ε-greedy、UCB、Thompson Sampling、吉廷斯指数 等)。
- 关键直觉:探索付出成本换取信息,利用对已知信息榨取最大收益——任何动作都同时支付探索税或利用税。
- 适用范围远超赌博:餐馆选择、研发投入、招聘、择偶、职业规划、创意输出节律(参见 连胜期)。
相关概念
相关工具
出现在
- 探索与利用:怎样继续做个年轻人
- 发刊词:现代精英的思维武器库(仅作为引用——发刊词把”多臂老虎机”列为最强 AI 反复使用的核心概念之一)