강의계획표
주차 |
주제 |
강의명 |
오픈일 |
1주차 |
강화학습의 이해 |
1.1 강화학습 개요 |
1/25 |
1.2 Multi-armed Bandit 문제 |
1.3 강화학습 맛보기 |
2주차 |
동적계획법 - 1 |
2.1 문제해결전략과 동적 계획법 |
1/25 |
2.2 동적 계획법의 주요개념(1) 최적화의 원리 |
2.3 동적 계획법의 주요개념(2) 중첩되는 부분문제와 역진귀납법 |
3주차 |
동적계획법 - 2 |
3.1 최단거리 문제 (Shortest Path) |
2/1 |
3.2 방문판매원 문제(Traveling Salesman Problem, TSP) |
3.3 배낭문제 (Knapsack Problem) |
4주차 |
마르코브 과정 |
4.1 마르코브 프로세스 개요 |
2/1 |
4.2 마르코브 프로세스 예시 |
4.3 마르코브 보상 프로세스 |
5주차 |
마르코브 결정 프로세스 - 1 |
5.1 MDP 개요 |
2/8 |
5.2 MDP 예시 - Examples of Markov Decision Process |
6주차 |
마르코브 결정 프로세스 - 2 |
6.1 MDP 가치함수 |
2/8 |
6.2 Infinite-horizon MDP |
7주차 |
마르코브 결정 프로세스 - 3 |
7.1 Value Iteration |
2/15 |
7.2 Policy Iteration |
8주차 |
중간고사 |
중간고사 |
2/15 |
9주차 |
강화학습 알고리듬 - 1 |
9.1 강화학습 Model-Free Reinforcement Learning |
2/15 |
9.2 몬테칼로 학습 Monte-Carlo Learning |
10주차 |
강화학습 알고리듬 - 2 |
10.1 시간차 학습 Temporal-Difference (TD) Learning |
2/22 |
10.2 SARSA 알고리듬 |
11주차 |
강화학습 알고리듬 - 3 |
11.1 On-policy vs. Off-policy |
2/22 |
11.2 Q-Learning 알고리듬 |
12주차 |
딥 강화학습 - 1 |
12.1 인공신경망 개요 |
3/1 |
12.2 Deep Q-Network (DQN) 개요 |
13주차 |
딥 강화학습 - 2 |
13.1 정책경사 (Policy Gradient) 개요 |
3/1 |
13.2 정책경사 정리 (Policy Gradient Theorem) 리뷰 |
14주차 |
딥 강화학습 - 3 |
14.1 REINFORCE 알고리듬 |
3/8 |
14.2 Actor-Critic 알고리듬 |
15주차 |
딥 강화학습 - 4 + 강의 정리 + 전문가 사례소개 (1) |
15.1 A3C 알고리듬 |
3/8 |
15.2 강의 정리 및 요약 |
15.3 학계 전문가 강연 |
16주차 |
전문가 사례소개 (2) |
16.1 산업계 전문가 강연 |
3/15 |
17주차 |
기말고사 |
기말고사 |
3/15 |