价值函数:在给定策略或决策规则下,用来衡量某个状态(或状态-动作)在未来能获得的期望回报/收益的函数。常见于强化学习、动态规划、控制理论、经济学等领域。(在不同学科里,具体形式可能不同,但核心都是“对未来价值的量化”。)
/ˈvæljuː ˈfʌŋkʃən/
The value function tells us how good a state is.
价值函数告诉我们一个状态有多“好”。
In dynamic programming, we compute the value function to choose the best action at each step under uncertainty.
在动态规划中,我们通过计算价值函数来在不确定性下为每一步选择最优动作。
value 来自拉丁语 valēre,意为“强健、有效、有价值”;function 来自拉丁语 functio,意为“执行、作用”。合起来 value function 字面意思就是“衡量价值起作用的函数”,用于把“价值/收益”用数学方式表达出来。