V2EX  ›  英汉词典
Enqueued related words: Bellman

Markov Decision Process

释义 Definition

马尔可夫决策过程(常缩写为 MDP):一种用于描述“在不确定环境中做序列决策”的数学框架。它通常由状态(states)、动作(actions)、状态转移概率(transition probabilities)和奖励(rewards)组成,核心假设是“马尔可夫性”——下一步只依赖当前状态与动作,而不依赖更久远的历史。(该术语在强化学习、运筹学与控制理论中非常常见。)

发音 Pronunciation

/ˈmɑːrkoʊv dɪˈsɪʒən ˈprɑːsɛs/

例句 Examples

A Markov decision process models how an agent chooses actions to maximize reward.
马尔可夫决策过程用于刻画智能体如何选择动作以最大化奖励。

In reinforcement learning, many problems are formulated as a Markov decision process with unknown transition dynamics.
在强化学习中,许多问题会被表述为具有未知状态转移规律的马尔可夫决策过程。

词源 Etymology

“Markov” 来自俄国数学家 Andrey Markov(安德烈·马尔可夫),指具有“无记忆性/马尔可夫性”的随机过程思想;“decision process” 指“决策过程”。合起来强调:在随机环境里做连续决策时,只需要当前状态(及所选动作)就能描述未来的概率与回报结构。

相关词 Related Words

文学与著作 Literary Works

  • Richard S. Sutton & Andrew G. Barto,《Reinforcement Learning: An Introduction》:用 MDP 作为强化学习的基础建模框架,系统讲解策略、价值函数与贝尔曼方程。
  • Martin L. Puterman,《Markov Decision Processes: Discrete Stochastic Dynamic Programming》:MDP 领域经典专著,详细讨论理论性质与算法。
  • Dimitri P. Bertsekas,《Dynamic Programming and Optimal Control》:以动态规划视角阐述 MDP、最优控制与贝尔曼最优性原理。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2171 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 17ms · UTC 09:40 · PVG 17:40 · LAX 01:40 · JFK 04:40
♥ Do have faith in what you're doing.