목차
CHAPTER 01 소개 1
 1.1 강화학습 2
 1.2 예제 5
 1.3 강화학습의 구성 요소 7
 1.4 한계와 범위 9
 1.5 확장된 예제: 틱택토 10
 1.6 요약 16
 1.7 강화학습의 초기 역사 17
참고문헌 27

PART I 표 형태의 해법
CHAPTER 02 다중 선택 31
 2.1 다중 선택 문제 32
 2.2 행동 가치 방법 34
 2.3 10중 선택 테스트 35
 2.4 점증적 구현 38
 2.5 비정상 문제의 흔적 40
 2.6 긍정적 초깃값 42
 2.7 신뢰 상한 행동 선택 44
 2.8 경사도 다중 선택 알고리즘 46
 2.9 연관 탐색(맥락적 다중 선택) 50
 2.10 요약 51
참고문헌 및 역사적 사실 54

 CHAPTER 03 유한 마르코프 결정 과정 57
 3.1 에이전트-환경 인터페이스 58
 3.2 목표와 보상 64
 3.3 보상과 에피소드 66
 3.4 에피소딕 작업과 연속적인 작업을 위한 통합 표기법 69
 3.5 정책과 가치 함수 70
 3.6 최적 정책과 최적 가치 함수 76
 3.7 최적성과 근사 82
 3.8 요약 83
참고문헌 및 역사적 사실 84

 CHAPTER 04 동적 프로그래밍 89
 4.1 정책 평가(예측) 90
 4.2 정책 향상 94
 4.3 정책 반복 97
 4.4 가치 반복 100
 4.5 비동기 동적 프로그래밍 103
 4.6 일반화된 정책 반복 104
 4.7 동적 프로그래밍의 효율성 106
 4.8 요약 107
참고문헌 및 역사적 사실 109

 CHAPTER 05 몬테카를로 방법 111
 5.1 몬테카를로 예측 112
 5.2 몬테카를로 행동 가치 추정 118
 5.3 몬테카를로 제어 119
 5.4 시작 탐험 없는 몬테카를로 제어 123
 5.5 중요도추출법을 통한 비활성 정책 예측 126
 5.6 점증적 구현 133
 5.7 비활성 몬테카를로 제어 135
 5.8 할인을 고려한 중요도추출법 138
 5.9 결정 단계별 중요도추출법 139
 5.10 요약 141
참고문헌 및 역사적 사실 143

 CHAPTER 06 시간차 학습 145
 6.1 TD 예측 146
 6.2 TD 예측 방법의 좋은점 150
 6.3 TD(0)의 최적성 153
 6.4 살사: 활성 정책 TD 제어 157
 6.5 Q 학습: 비활성 정책 TD 제어 160
 6.6 기댓값 살사 162
 6.7 최대화 편차 및 이중 학습 163
 6.8 게임, 이후상태, 그 밖의 특별한 경우들 166
 6.9 요약 168
참고문헌 및 역사적 사실 169

 CHAPTER 07 n단계 부트스트랩 171
 7.1 n단계 TD 예측 172
 7.2 n단계 살사 177
 7.3 n단계 비활성 정책 학습 179
 7.4 제어 변수가 있는 결정 단계별 방법 181
 7.5 중요도추출법을 사용하지 않는 비활성 정책 학습: n단계 트리 보강 알고리즘 184
 7.6 통합 알고리즘: n단계 Q(σ) 187
 7.7 요약 189
참고문헌 및 역사적 사실 190

 CHAPTER 08 표에 기반한 방법을 이용한 계획 및 학습 191
 8.1 모델과 계획 192
 8.2 다이나: 계획, 행동, 학습의 통합 194
 8.3 모델이 틀렸을 때 199
 8.4 우선순위가 있는 일괄처리 202
 8.5 기댓값 갱신 대 표본 갱신 206
 8.6 궤적 표본추출 210
 8.7 실시간 동적 프로그래밍 213
 8.8 결정 시점에서의 계획 217
 8.9 경험적 탐색 219
 8.10 주사위 던지기 알고리즘 221
 8.11 몬테카를로 트리 탐색 223
 8.12 요약 227
 8.13 1부 요약: 차원 228
참고문헌 및 역사적 사실 231

PART II 근사적 해법
CHAPTER 09 근사를 이용한 활성 정책 예측 237
 9.1 가치 함수 근사 238
 9.2 예측 목적(VE) 239
 9.3 확률론적 경사도와 준경사도 방법 241
 9.4 선형 방법 246
 9.5 선형 방법을 위한 특징 만들기 253
 9.6 시간 간격 파라미터를 수동으로 선택하기 268
 9.7 비선형 함수 근사: 인공 신경망 269
 9.8 최소 제곱 TD 275
 9.9 메모리 기반 함수 근사 278
 9.10 커널 기반 함수 근사 280
 9.11 활성 정책 학습에 대한 보다 깊은 관찰: 관심과 강조 282
 9.12 요약 285
참고문헌 및 역사적 사실 286

 CHAPTER 10 근사를 적용한 활성 정책 제어 293
 10.1 에피소딕 준경사도 제어 294
 10.2 준경사도 n단계 살사 297
 10.3 평균 보상: 연속적 작업을 위한 새로운 문제 설정 300
 10.4 할인된 설정에 대한 반대 304
 10.5 미분 준경사도 n단계 살사 307
 10.6 요약 308
참고문헌 및 역사적 사실 308

 CHAPTER 11 근사를 활용한 비활성 정책 방법 311
 11.1 준경사도 방법 312
 11.2 비활성 정책 발산의 예제 315
 11.3 치명적인 삼위일체 320
 11.4 선형 가치 함수 기하 구조 322
 11.5 벨만 오차에서의 경사도 강하 327
 11.6 벨만 오차는 학습할 수 없다 332
 11.7 경사도 TD 방법 337
 11.8 강한 TD 방법 341
 11.9 분산 줄이기 343
 11.10 요약 345
참고문헌 및 역사적 사실 346

 CHAPTER 12 적격 흔적 349
 12.1 λ 이득 350
 12.2 TD(λ) 355
 12.3 중단된 n단계 λ 이득 방법 359
 12.4 다시 갱신하기: 온라인 λ 이득 알고리즘 361
 12.5 진정한 온라인 TD(λ) 363
 12.6 몬테카를로 학습에서의 더치 흔적 366
 12.7 살사(λ) 368
 12.8 가변 λ 및 γ 372
 12.9 제어 변수가 있는 비활성 정책 흔적 374
 12.10 왓킨스의 Q(λ)에서 트리 보강(λ)로 378
 12.11 흔적을 이용한 안정적인 비활성 정책 방법 381
 12.12 구현 이슈 383
 12.13 결론 384
참고문헌 및 역사적 사실 386

 CHAPTER 13 정책 경사도 방법 389
 13.1 정책 근사 및 정책 근사의 장점 390
 13.2 정책 경사도 정리 393
 13.3 REINFORCE: 몬테카를로 정책 경사도 395
 13.4 기준값이 있는 REINFORCE 399
 13.5 행동자-비평자 방법 401
 13.6 연속적인 문제에 대한 정책 경사도 403
 13.7 연속적 행동을 위한 정책 파라미터화 406
 13.8 요약 408
참고문헌 및 역사적 사실 409

PART III 더 깊이 들여다보기
CHAPTER 14 심리학 413
 14.1 예측과 제어 414
 14.2 고전적 조건화 416
 14.3 도구적 조건화 433
 14.4 지연된 강화 438
 14.5 인지 지도 440
 14.6 습관적 행동과 목표 지향적 행동 442
 14.7 요약 447
참고문헌 및 역사적 사실 449

 CHAPTER 15 신경과학 457
 15.1 신경과학 기본 458
 15.2 보상 신호, 강화 신호, 가치, 예측 오차 460
 15.3 보상 예측 오차 가설 463
 15.4 도파민 465
 15.5 보상 예측 오차 가설에 대한 실험적 근거 469
 15.6 TD 오차/도파민 유사성 473
 15.7 신경 행동자-비평자 479
 15.8 행동자와 비평자 학습 규칙 482
 15.9 쾌락주의 뉴런 488
 15.10 집단적 강화학습 490
 15.11 뇌에서의 모델 기반 방법 494
 15.12 중독 496
 15.13 요약 497
참고문헌 및 역사적 사실 501

 CHAPTER 16 적용 및 사례 연구 511
 16.1 TD-가몬 511
 16.2 사무엘의 체커 선수 518
 16.3 왓슨의 이중 내기 522
 16.4 메모리 제어 최적화 526
 16.5 인간 수준의 비디오 게임 실력 531
 16.6 바둑 게임에 통달하다 539
 16.7 개인화된 웹 서비스 550
 16.8 열 상승 554

 CHAPTER 17 프론티어 559
 17.1 일반적인 가치 함수 및 보조 작업 559
 17.2 옵션을 통한 시간적 추상화 562
 17.3 관측과 상태 565
 17.4 보상 신호의 설계 572
 17.5 남아 있는 이슈들 576
 17.6 인공지능의 미래 580
참고문헌 및 역사적 사실 584

참고문헌 588
찾아보기 626
닫기