一句话定义
贝尔曼 1954 提出的最优决策数学理论:动作的目的不只在当下回报,更在于把系统推入一个未来回报更高的”状态”——状态杠杆背后的数学灵魂。
来源
详细解释
对照面:贪心算法(greedy algorithm)——只在自己的局部追求当前最省力/最大回报。绝大多数人干活都是在跑贪心算法(买回排骨直接扔冰箱)。
动态规划用 贝尔曼方程 把”未来的潜在价值”折现到当下决策中:
总收益 = 即时回报 + 下一状态的潜在价值
由此衍生 贝尔曼最优性原理:当下决策必须让你在新状态下面对未来时拥有最好的出路。
直观比喻:职业台球选手不只要打进当前球,还要通过力度和旋转控制白球,让它停在击打下一颗球的最佳位置——这就是状态转移。
状态杠杆 的三种形态都是动态规划的应用: