一句话定义

贝尔曼 1954 提出的最优决策数学理论:动作的目的不只在当下回报,更在于把系统推入一个未来回报更高的”状态”——状态杠杆背后的数学灵魂。

来源

详细解释

对照面:贪心算法(greedy algorithm)——只在自己的局部追求当前最省力/最大回报。绝大多数人干活都是在跑贪心算法(买回排骨直接扔冰箱)。

动态规划用 贝尔曼方程 把”未来的潜在价值”折现到当下决策中:

总收益 = 即时回报 + 下一状态的潜在价值

由此衍生 贝尔曼最优性原理:当下决策必须让你在新状态下面对未来时拥有最好的出路。

直观比喻:职业台球选手不只要打进当前球,还要通过力度和旋转控制白球,让它停在击打下一颗球的最佳位置——这就是状态转移。

状态杠杆 的三种形态都是动态规划的应用:

  • 前置杠杆——牺牲即时回报推入高价值状态。
  • 顺序杠杆——规划状态转移路径。
  • 约束杠杆——锁定决定下一状态价值的唯一变量(瓶颈)。

相关概念

相关工具

出现在