简介
美国应用数学家(1920–1984);1954 年提出 动态规划 理论,是现代最优控制、强化学习、运筹学的奠基人之一。
主要贡献
- 1954 论文 The Theory of Dynamic Programming(Bull. Amer. Math. Soc. 60(6): 503–515)。
- 提出 贝尔曼方程:总收益 = 即时回报 + 下一状态的潜在价值。
- 提出 贝尔曼最优性原理:最优策略的剩余部分对每个子问题也最优。
- 创造术语 “curse of dimensionality”(维度灾难)。