목차
지은이 소개 = 5
감사의 글 = 7
옮긴이 소개 = 8
옮긴이의 말 = 9
들어가며 = 17
1 데이터 마이닝 = 21
  1.1 데이터 마이닝이란? = 21
  1.2 데이터 마이닝의 통계적 한계점 = 25
  1.3 알아두면 유용한 사실들 = 28
  1.4 이 책의 개요 = 38
  1.5 요약 = 40
  1.6 참고문헌 = 41
2 맵리듀스와 새로운 소프트웨어 스택 = 43
  2.1 분산 파일 시스템 = 44
  2.2 맵리듀스 = 47
  2.3 맵리듀스를 사용하는 알고리즘 = 54
  2.4 맵리듀스의 확장 = 66
  2.5 통신 비용 모델 = 73
  2.6 맵리듀스에 대한 복잡도 이론 = 80
  2.7 요약 = 97
  2.8 참고문헌 = 99
3 유사 항목 찾기 = 103
  3.1 근접 이웃 탐색의 응용 = 103
  3.2 문서의 슁글링 = 108
  3.3 집합의 유사도 보존 요약 = 112
  3.4 문서의 지역성 기반 해싱 = 120
  3.5 거리 측정 = 125
  3.6 지역성 기반 함수의 이론 = 132
  3.7 기타 거리 측정법들을 위한 LSH 함수군 = 138
  3.8 지역성 기반 해시 응용 분야 = 145
  3.9 높은 유사도 처리 방법 = 154
  3.10 요약 = 163
  3.11 참고문헌 = 166
4 스트림 데이터 마이닝 = 169
  4.1 스트림 데이터 모델 = 170
  4.2 스트림 데이터의 표본추출 = 175
  4.3 스트림 필터링 = 178
  4.4 스트림에서 중복을 제거한 원소 개수 세기 = 182
  4.5 모멘트 근사치 = 186
  4.6 윈도 내에서의 카운트 = 193
  4.7 감쇠 윈도 = 201
  4.8 요약 = 203
  4.9 참고문헌 = 206
5 링크 분석 = 207
  5.1 페이지랭크 = 207
  5.2 페이지랭크의 효율적인 연산 = 224
  5.3 주제 기반 페이지랭크 = 231
  5.4 링크 스팸 = 235
  5.5 허브와 권위자 = 241
  5.6 요약 = 247
  5.7 참고문헌 = 250
6 빈발 항목집합 = 253
  6.1 시장바구니 모델 = 254
  6.2 시장바구니와 선험적 알고리즘 = 262
  6.3 메인 메모리에서 더 큰 데이터 집합 처리하기 = 273
  6.4 단계 한정 알고리즘 = 282
  6.5 스트림에서 빈발 항목 개수 세기 = 289
  6.6 요약 = 294
  6.7 참고문헌 = 296
7 클러스터링 = 299
  7.1 클러스터링 기법의 개요 = 299
  7.2 계층적 클러스터링 = 304
  7.3 k평균 알고리즘 = 315
  7.4 CURE 알고리즘 = 324
  7.5 비유클리드 공간에서의 클러스터링 = 328
  7.6 스트림을 위한 클러스터링과 병렬 처리 = 333
  7.7 요약 = 340
  7.8 참고문헌 = 344
8 웹을 통한 광고 = 347
  8.1 온라인 광고와 관련된 주제들 = 347
  8.2 온라인 알고리즘 = 350
  8.3 조합 문제 = 354
  8.4 애드워즈 문제 = 358
  8.5 애드워즈 구현 = 369
  8.6 요약 = 373
  8.7 참고문헌 = 375 
9 추천 시스템 = 377
  9.1 추천 시스템 모델 = 378
  9.2 내용 기반 추천 = 382
  9.3 협업 필터링 = 394
  9.4 차원 축소 = 401
  9.5 넷플릭스 챌린지 = 411
  9.6 요약 = 413
  9.7 참고문헌 = 415
10 소셜 네트워크 그래프 마이닝 = 417
  10.1 소셜 네트워크 그래프 = 418
  10.2 소셜 네트워크 그래프 클러스터링 = 423
  10.3 커뮤니티의 직접적 발견 = 433
  10.4 그래프 분할 = 438
  10.5 겹치는 커뮤니티 찾기 = 447
  10.6 유사순위 = 455
  10.7 삼각형의 개수 세기 = 460
  10.8 그래프의 이웃 특징 = 467
  10.9 요약 = 481
  10.10 참고문헌 = 485
11 차원 축소 = 489
  11.1 고윳값과 고유벡터 = 490
  11.2 주성분 분석 = 498
  11.3 특이 값 분해 = 505
  11.4 CUR 분해 = 516
  11.5 요약 = 523
  11.6 참고문헌 = 524
12 대규모 머신 러닝 = 527
  12.1 머신 러닝 모델 = 528
  12.2 퍼셉트론 = 536
  12.3 서포트 벡터 머신 = 552
  12.4 최근접 이웃 학습 = 565
  12.5 학습 방식의 비교 = 574
  12.6 요약 = 575
  12.7 참고문헌 = 577
찾아보기 = 579
닫기