动态规划

一句话定义

贝尔曼 1954 提出的最优决策数学理论：动作的目的不只在当下回报，更在于把系统推入一个未来回报更高的”状态”——状态杠杆背后的数学灵魂。

对照面：贪心算法（greedy algorithm）——只在自己的局部追求当前最省力/最大回报。绝大多数人干活都是在跑贪心算法（买回排骨直接扔冰箱）。

动态规划用贝尔曼方程把”未来的潜在价值”折现到当下决策中：

总收益 = 即时回报 + 下一状态的潜在价值

由此衍生贝尔曼最优性原理：当下决策必须让你在新状态下面对未来时拥有最好的出路。

直观比喻：职业台球选手不只要打进当前球，还要通过力度和旋转控制白球，让它停在击打下一颗球的最佳位置——这就是状态转移。

状态杠杆的三种形态都是动态规划的应用：