목차
역자 머리말 = ⅹ
이 책에 대하여 = xii
감수자의 글 = xvii
바둑 AI의 역사 = xx
베타리더 후기 = xxii
특별 대국 보고서 : 알파고와 커제 9단의 대결 = xxiv
CHAPTER 1 알파고의 등장 = 1
  1.1. 게임 AI의 역사와 발전 = 2
    1.1.1. 앨런 튜링과 AI = 2
  1.2. 천재 데미스 하사비스의 등장 = 5
    1.2.1. 신동 데미스 하사비스 = 5
  1.3. 알파고의 활약 = 7
    1.3.1. 알파고의 활약 = 7
  1.4. 바둑 AI의 기초 = 13
    1.4.1. 바둑의 규칙 = 13
    1.4.2. 바둑 AI를 구현한다는 것은 무엇인가? = 16
    1.4.3. ''다음의 한 수'' 태스크 = 20
    1.4.4. ''다음의 한 수'' 태스크의 어려운 점 = 21
    1.4.5. 머신 러닝을 이용한 ''다음의 한 수'' 태스크 = 22
    1.4.6. 알파고의 롤 아웃 정책 학습 = 26
  1.5. 정리 = 30
CHAPTER 2 딥 러닝 - 바둑 AI는 순간적으로 수를 떠올린다 = 31
  이 장에서 설명할 내용 = 32
  2.1. 딥 러닝이란? = 34
    2.1.1. AI는 사람의 직관을 실현할 수 있을까? = 34
  2.2. 필기체 숫자 인식의 예 = 42
    2.2.1. 필기체 숫자 인식이란? = 42
    2.2.2. 필기체 숫자 인식의 데이터 세트 ''MNIST'' = 42
    2.2.3. 신경망을 사용한 필기체 숫자 인식 = 44
    2.2.4. 필기체 숫자 인식에 대한 컨볼루션 신경망 = 47
    2.2.5. 다단계의 신경망에서도 유효한 활성화 함수 = 51
    2.2.6. 오류 역전파 방법에 기초한 CNN의 필터 가중치 학습 = 54
    2.2.7. 화상 처리 CNN의 발전 = 60
  2.3. 알파고의 컨볼루션 신경망 = 64
    2.3.1. 알파고의 컨볼루션 신경망 = 64
    2.3.2. ''다음의 한 수'' 태스크와 화상 인식의 유사성 = 65
    2.3.3. 바둑의 수를 선택하는 CNN - SL 정책 네트워크 = 66
    2.3.4. SL 정책 네트워크의 입력 48채널의 특징 = 71
    2.3.5. SL 정책 네트워크의 컨볼루션 계산 예 = 75
    2.3.6. SL 정책 네트워크의 계산량 = 77
    2.3.7. SL 정책 네트워크의 학습용 데이터 획득 = 81
    2.3.8. SL 정책 네트워크의 학습 기법 = 84
    2.3.9. SL 정책 네트워크의 학습 결과 = 87
    2.3.10. 국면의 유리 불리를 예측하는 CNN(밸류 네트워크) = 90
  2.4. Chainer로 CNN 학습시키기 = 93
    2.4.1. MNIST의 신경망 학습 부분 작성하기 = 93
    2.4.2. SL 정책 네트워크의 학습 부분 작성하기 = 96
  2.5. 정리 = 100
CHAPTER 3 강화 학습 - 바둑 AI는 경험을 배운다 = 101
  이 장에서 설명할 내용 = 102
  3.1. 강화 학습이란? = 104
    3.1.1. 어떻게 경험에서 배울 것인가? = 104
  3.2. 강화 학습의 역사 = 108
    3.2.1. 강화 학습 = 108
  3.3. 멀티 암드 밴딧 문제 = 112
    3.3.1. 강화 학습의 사례 = 112
    3.3.2. UCB1 알고리즘 = 116
  3.4. 미로를 풀기 위한 강화 학습 = 118
    3.4.1. 4×4칸으로 이루어진 미로 = 118
    3.4.2. 가치 기반의 방식 : Q 학습을 통해 미로 해결 = 120
    3.4.3. 정책 기반 방식 : 정책 경사법을 통해 미로 해결 = 124
  3.5. 비디오 게임 조작 스킬을 얻기 위한 강화 학습 = 127
    3.5.1. DQN = 127
  3.6. 알파고의 강화 학습 = 131
    3.6.1. 알파고의 강화 학습 = 131
    3.6.2. 정책 경사법에 근거하는 강화 학습 = 134
    3.6.3. RL 정책 네트워크의 성능 = 137
    3.6.4. 밸류 네트워크 학습용의 데이터 작성 기법 = 138
  3.7. 정리와 과제 = 143
CHAPTER 4 탐색 - 바둑 AI는 어떻게 예측할까? = 145
  이 장에서 설명할 내용 = 146
  4.1. 2인 제로섬 유한 확정 완전 정보 게임 = 148
    4.1.1. 어떻게 수를 예측할까? = 148
  4.2. 게임에서의 탐색 = 153
    4.2.1. SL 정책 네트워크 = 153
  4.3. 기존의 게임 트리 탐색(민맥스 트리 탐색) = 155
    4.3.1. ''완전 탐색''의 개념 = 155
    4.3.2. 탐색 포인트 - 가지치기와 평가 함수 = 162
  4.4. 바둑에서의 몬테카를로 트리 탐색 = 165
    4.4.1. 몬테카를로 방법 = 165
    4.4.2. 바둑에서의 몬테카를로 방법 : 원시 몬테카를로 = 166
    4.4.3. 몬테카를로 트리 탐색 = 170
    4.4.4. 몬테카를로 트리 탐색의 결과와 최종적인 수 탐색 = 179
    4.4.5. 몬테카를로 트리 탐색의 개선 = 182
  4.5. 몬테카를로 트리 탐색의 성공 요인과 과제 = 185
    4.5.1. CrazyStone과 Gnu Go = 185
    4.5.2. 단 1줄로 다시 태어난 CrazyStone = 186
  4.6. 정리 = 188
    4.6.1. 탐색 = 188
CHAPTER 5 알파고의 완성 = 189
  5.1. 알파고의 설계도 = 190
    5.1.1. 알파고의 재료 = 190
    5.1.2. 전체를 제어하는 AI = 192
  5.2. 비동기 정책 가치 갱신 몬테카를로 트리 탐색 = 195
    5.2.1. 세 가지 정책의 특징 = 195
    5.2.2. 비동기 정책 가치 갱신 몬테카를로 트리 탐색 = 197
    5.2.3. APV-MCTS의 선택 처리 = 200
    5.2.4. APV-MCTS의 전개 처리 = 201
    5.2.5. APV-MCTS의 평가 처리 = 201
    5.2.6. APV-MCTS의 갱신 처리 = 202
  5.3. 대량 CPUㆍGPU의 이용 = 204
    5.3.1. 대량의 CPU와 GPU에 의한 병렬 탐색 = 204
    5.3.2. 로크리스 해시 = 206
    5.3.3. 가상 손실 = 208
  5.4. 알파고의 강력함 = 211
    5.4.1. 몬테카를로 트리 탐색, 밸류 네트워크, 정책 네트워크의 조합 효과 = 211
CHAPTER 6 알파고에서 알파고 제로로 = 213
  6.1. 시작에 앞서 = 214
  6.2. 알파고 제로에서의 딥 러닝 = 216
    6.2.1. 듀얼 네트워크의 구조 = 218
    6.2.2. 듀얼 네트워크의 학습 = 224
    6.2.3. 알파고 제로의 딥 러닝 정리 = 227
  6.3. 알파고 제로에서의 몬테카를로 트리 탐색 = 228
    6.3.1. 알파고 제로의 몬테카를로 트리 탐색 개요 = 228
    6.3.2. 몬테카를로 트리 탐색의 플로 차트 = 230
    6.3.3. 알파고 제로의 몬테카를로 트리 탐색 정리 = 233
  6.4. 알파고 제로에서의 강화 학습 = 234
    6.4.1. 알파고 제로의 강화 학습 기법 = 236
    6.4.2. 강화 학습의 계산 시간 = 242
    6.4.3. 알파고 제로의 강화 학습은 무엇을 하고 있나? = 245
    6.4.4. 강화 학습의 효과 = 247
    6.4.5. 알파고 제로의 강화 학습 정리와 그 후의 진전 = 248
  6.5. 알파고 제로의 강력함 = 251
  6.6. 알파고 제로는 지식 없이 만들 수 있을까? = 253
  6.7. 알파고나 알파고 제로에 약점은 있을까? = 255
    6.7.1. 알파고와 알파고 제로의 약점 가능성 = 255
  6.8. 알파고 제로의 향후 미래 = 257
    6.8.1. 바둑계의 미래는 어떻게 될까? = 257
    6.8.2. AI의 과제 = 258
Appendix 1 수식에 관하여 = 263
  A1.1. 콘볼루션 신경망의 학습 법칙 도출 = 264
    A1.1.1. SL 정책 네트워크의 학습 법칙 도출 = 264
    A1.1.2. 밸류 네트워크의 학습 법칙 도출 = 265
    A1.1.3. 듀얼 네트워크의 손실 함수에 관한 보충 = 267
  A1.2. 강화 학습의 학습 법칙 도출 = 269
    A1.2.1. 파알고의 RL 정책 네트워크 강화 학습 방법의 학습 법칙 도출 = 269
    A1.2.2. 미로를 예로 든 정책 경사법의 학습 법칙 도출 = 271
Appendix 2 바둑 프로그램용 UI 소프트웨어 GoGui 및 GoGui용 프로그램 DeltaGo 이용 방법 = 273
  A2.1. DeltaGo란? = 274
    A2.1.1. DeltaGo의 특징 = 274
  A2.2. GoGui의 설치 및 GoGui용 프로그램 DeltaGo 이용 방법 = 276
    A2.2.1. DeltaGo 다운로드와 압축 풀기 = 276
찾아보기 = 289
닫기