一句话定义

计算机科学和决策理论的经典问题:面前多台老虎机中奖率不同且未知,有限硬币如何分配——是 探索与利用的权衡 的数学母题。

来源

详细解释

  • 你不知道哪台机器中奖率高;硬币代表有限的时间和精力。
  • 两种策略:
    • 探索:试没玩过的机器——可能输钱,但也可能发现超级大奖机器。
    • 利用:守住已知中奖率不错的机器,反复玩。
  • 学术界提出多种算法(ε-greedy、UCB、Thompson Sampling、吉廷斯指数 等)。
  • 关键直觉:探索付出成本换取信息,利用对已知信息榨取最大收益——任何动作都同时支付探索税或利用税。
  • 适用范围远超赌博:餐馆选择、研发投入、招聘、择偶、职业规划、创意输出节律(参见 连胜期)。

相关概念

相关工具

出现在