Bellman Expectation Equation (벨만 기대 방정식)

Notice

Recent Posts

Recent Comments

Link

Github

« 2024/10 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Just Do IT

Bellman Expectation Equation (벨만 기대 방정식) 본문

AI Study/강화학습

Bellman Expectation Equation (벨만 기대 방정식)

풀용 2023. 9. 26. 23:04

1. State Value Function

State Value Function $ V_\pi(s) $는 state s에서 부터 끝까지 갔을 때의 expected return을 말합니다.

$$ v_\pi(s) = E_\pi[G_t|S_t=s] $$

2. Action Value Function

Action Value Function $ q_\pi(s,a) $는 state s에서 action a를 선택하고 끝까지 갔을 때의 expected return을 말합니다.

$$ q_\pi(s,a) = E_\pi[G_t|S_t=s,A_t=a] $$

3. Return

여기서의 return은 time t에서 받을 수 있는 total discounted reward를 말합니다.

$$ G_t = R_{t+1} + \gamma R_{t+2}+... = \sum_{k=0}^{\infty}\gamma^kR_{t+k+1} $$

4. Bellman Expectation Equation의 변형

0단계 : $ v_\pi(s_t) = E_\pi[r_{t+1} + \gamma v_\pi (s_{t+1})] $

$ q_\pi(s_t,a_t) = E_\pi[r_{t+1} + \gamma q_\pi (s_{t+1},a_{t+1})] $

1단계 : $ v_\pi(s) = \sum_{a \in A}^{}\pi(a|s)q_\pi(s,a) $

$ v_\pi(s) $는 state s에서 policy에 따라 action a를 선택하고 그 action을 선택했을 때의 action value function의 합을 말한다.

$ q_\pi (s,a) = r_s^a + \gamma \sum_{s'\in S}^{}P_{ss'}^av_\pi(s') $

$ q_\pi (s,a) $ 는 현재 action으로 인한 reward $ r_s^a $에 a로 이동할 수 있는 state의 state transition probability와 이동한 state의 state value function을 곱해서 모두 더한 값을 말한다.

1단계는 2단계를 위한 발판이며 결과적으로 2단계 결과가 사용된다.

2단계 : $ v_\pi(s) = \sum_{a \in A}^{}\pi(a|s)(r_s^a + \gamma \sum_{s' \in S}^{}P_{ss'}^av_\pi(s')) $

1단계의 $ v_\pi(s) $ 의 식 내부의 $ q_\pi(s,a) $를 $ r_s^a + \gamma \sum_{s'\in S}^{}P_{ss'}^av_\pi(s') $로 바꾼 식이다.

$ q_\pi(s,a) = r_s^a + \gamma \sum_{s' \in S}^{}P_{ss'}^a \sum_{a' \in A}^{}\pi(a'|s')q_\pi(s',a') $

$ q_pi(s,a) $ 또한 1단계의 식을 위와 같이 바꿀 수 있다.

'AI Study > 강화학습' 카테고리의 다른 글

Markov Decision Processes(MDP)란? (0)	2023.09.26

'AI Study/강화학습' Related Articles

Markov Decision Processes(MDP)란? 2023.09.26

Comments

Just Do IT

Bellman Expectation Equation (벨만 기대 방정식) 본문

Bellman Expectation Equation (벨만 기대 방정식)

1. State Value Function

2. Action Value Function

3. Return

4. Bellman Expectation Equation의 변형

'AI Study > 강화학습' 카테고리의 다른 글

티스토리툴바