강화학습의 수학적 기초와 알고리듬 이해

강의계획표
주차	주제	강의명	오픈일
1주차	강화학습의 이해	1.1 강화학습 개요	1/25
		1.2 Multi-armed Bandit 문제
		1.3 강화학습 맛보기
2주차	동적계획법 - 1	2.1 문제해결전략과 동적 계획법	1/25
		2.2 동적 계획법의 주요개념(1) 최적화의 원리
		2.3 동적 계획법의 주요개념(2) 중첩되는 부분문제와 역진귀납법
3주차	동적계획법 - 2	3.1 최단거리 문제 (Shortest Path)	2/1
		3.2 방문판매원 문제(Traveling Salesman Problem, TSP)
		3.3 배낭문제 (Knapsack Problem)
4주차	마르코브 과정	4.1 마르코브 프로세스 개요	2/1
		4.2 마르코브 프로세스 예시
		4.3 마르코브 보상 프로세스
5주차	마르코브 결정 프로세스 - 1	5.1 MDP 개요	2/8
5주차	마르코브 결정 프로세스 - 1	5.2 MDP 예시 - Examples of Markov Decision Process	2/8
6주차	마르코브 결정 프로세스 - 2	6.1 MDP 가치함수	2/8
6주차	마르코브 결정 프로세스 - 2	6.2 Infinite-horizon MDP	2/8
7주차	마르코브 결정 프로세스 - 3	7.1 Value Iteration	2/15
7주차	마르코브 결정 프로세스 - 3	7.2 Policy Iteration	2/15
8주차	중간고사	중간고사	2/15
9주차	강화학습 알고리듬 - 1	9.1 강화학습 Model-Free Reinforcement Learning	2/15
9주차	강화학습 알고리듬 - 1	9.2 몬테칼로 학습 Monte-Carlo Learning	2/15
10주차	강화학습 알고리듬 - 2	10.1 시간차 학습 Temporal-Difference (TD) Learning	2/22
10주차	강화학습 알고리듬 - 2	10.2 SARSA 알고리듬	2/22
11주차	강화학습 알고리듬 - 3	11.1 On-policy vs. Off-policy	2/22
11주차	강화학습 알고리듬 - 3	11.2 Q-Learning 알고리듬	2/22
12주차	딥 강화학습 - 1	12.1 인공신경망 개요	3/1
12주차	딥 강화학습 - 1	12.2 Deep Q-Network (DQN) 개요	3/1
13주차	딥 강화학습 - 2	13.1 정책경사 (Policy Gradient) 개요	3/1
13주차	딥 강화학습 - 2	13.2 정책경사 정리 (Policy Gradient Theorem) 리뷰	3/1
14주차	딥 강화학습 - 3	14.1 REINFORCE 알고리듬	3/8
14주차	딥 강화학습 - 3	14.2 Actor-Critic 알고리듬	3/8
15주차	딥 강화학습 - 4 + 강의 정리 + 전문가 사례소개 (1)	15.1 A3C 알고리듬	3/8
		15.2 강의 정리 및 요약
		15.3 학계 전문가 강연
16주차	전문가 사례소개 (2)	16.1 산업계 전문가 강연	3/15
17주차	기말고사	기말고사	3/15

KoreaUnivK: ku_ai_002 강화학습의 수학적 기초와 알고리듬 이해

강화학습의 수학적 기초와 알고리듬 이해

교수소개

TA/운영진

참고교재

관련 강좌