一句话定义
动态规划 的核心方程:你的总收益 = 你眼前的即时回报 + 你即将进入的下一个状态的潜在价值(Value of the next state)。
来源
详细解释
贝尔曼 1954 提出。把”决策”重新定义为”选择一次状态转移”——动作的目的不只是产生即时回报,更是把世界推入一个未来期望价值更高的状态。
直观应用:
- 职业台球:当前进球 + 白球落到方便击打下一颗球的位置。
- 烹饪:买排骨当下多花 5 分钟分袋切,换来未来 N 顿饭都不用解冻。
- 工程:图纸上一笔,省掉工地上千锤。
贝尔曼最优性原理 是它的推论形式。