목차
CHAPTER 1 서론
  1.1 데이터 마이닝이란 무엇인가? = 4
  1.2 도전에 동기부여하기 = 5
  1.3 데이터 마이닝의 기원 = 7
  1.4 데이터 마이닝 작업 = 9
  1.5 책의 범위와 구성 = 14
  1.6 참고문헌 설명 = 15
  1.7 연습문제 = 22
CHAPTER 2 데이터
  2.1 데이터의 타입 = 26
    2.1.1 속성과 측정 = 27
    2.1.2 데이터 집합의 타입 = 34
  2.2 데이터 품질 = 42
    2.2.1 측정과 데이터 수집 문제 = 43
    2.2.2 응용과 관련된 문제 = 50
  2.3 데이터 전처리 = 51
    2.3.1 총계 = 52
    2.3.2 표본추출 = 54
    2.3.3 차원 축소 = 57
    2.3.4 특징 부분집합 선택 = 59
    2.3.5 특징 생성 = 62
    2.3.6 이산화와 이진화 = 64
    2.3.7 변수 변환 = 70
  2.4 유사도와 비유사도의 척도 = 72
    2.4.1 기초 = 73
    2.4.2 단순 속성간의 유사도와 비유사도 = 75
    2.4.3 데이터 객체간의 비유사도 = 76
    2.4.4 데이터 객체간의 유사도 = 79
    2.4.5 근접도 척도의 예 = 80
    2.4.6 상호 정보 = 90
    2.4.7 커널 함수 = 91
    2.4.8 브레그만 발산 = 96
    2.4.9 근접도 계산의 문제들 = 98
    2.4.10 올바른 근접도 척도의 선택 = 101
  2.5 참고문헌 설명 = 103
  2.6 연습문제 = 109
CHAPTER 3 분류 : 기본개념과 기법
  3.1 기본 개념 = 118
  3.2 분류를 위한 일반적인 구조 = 122
  3.3 의사결정 트리 분류기(Decision Tree Classifier) = 124
    3.3.1 기본적인 의사결정 트리 구축 알고리즘 = 126
    3.3.2 속성 시험조건 표현 방법 = 130
    3.3.3 속성 시험조건 선택 척도 = 132
    3.3.4 의사결정 트리 귀납 알고리즘 = 142
    3.3.5 응용 예 : 웹 로봇 탐지 = 144
    3.3.6 의사결정 트리 분류기의 특성 = 146
  3.4 모델 과잉적합 = 154
    3.4.1 모델 과잉적합의 원인 = 156
  3.5 모델 선택 = 162
    3.5.1 검증 집합의 사용 = 163
    3.5.2 모델 복잡도 추가하기 = 164
    3.5.3 통계적 한계의 추정 = 168
    3.5.4 의사결정 트리를 위한 모델 선택 = 169
  3.6 모델 평가 = 171
    3.6.1 홀드아웃 방법 = 172
    3.6.2 교차 검증 = 173
  3.7 하이퍼 파라미터의 존재 = 175
    3.7.1 하이퍼 파라미터 선택 = 176
    3.7.2 중첩 교차검증 = 178
  3.8 모델 선택과 평가의 문제들 = 179
    3.8.1 훈련 집합과 시험 집합의 중복 = 180
    3.8.2 일반화오류로 검증오류의 사용 = 180
  3.9 모델 비교 = 181
    3.9.1 정확도의 신뢰 구간 추정하기 = 182
    3.9.2 두 모델의 성능 비교 = 184
  3.10 참고문헌 설명 = 185
  3.11 연습문제 = 194
CHAPTER 4 분류 : 기타 기법
  4.1 분류기의 종류 = 203
  4.2 규칙 기반 분류기 = 205
    4.2.1 규칙 기반 분류기가 작동하는 방식 = 208
    4.2.2 규칙 집합의 속성 = 208
    4.2.3 규칙 추출을 위한 직접적인 방법 = 210
    4.2.4 규칙 추출을 위한 간접적 방법 = 215
    4.2.5 규칙 기반 분류기의 특성 = 218
  4.3 최근접 분류기(Nearest Neighbor Classifiers) = 219
    4.3.1 알고리즘 = 221
    4.3.2 최근접 이웃 분류기의 특성 = 222
  4.4 나이브 베이지안(Naive Bayes) 분류기 = 223
    4.4.1 확률론의 기초 = 224
    4.4.2 나이브 베이즈 가정 = 229
  4.5 베이지안 네트워크 = 239
    4.5.1 그래픽 표현 = 239
    4.5.2 추론과 학습 = 245
    4.5.3 베이지안 네트워크의 특성 = 253
  4.6 로지스틱 회귀(Logistic Regression) = 254
    4.6.1 일반화된 선형 모형으로서의 로지스틱 회귀 = 256
    4.6.2 학습 모델 매개 변수 = 257
    4.6.3 로지스틱 회귀의 특성 = 259
  4.7 인공 신경망 네트워크(ANN) = 260
    4.7.1 퍼셉트론 = 262
    4.7.2 다계층 신경망 = 265
    4.7.3 ANN의 특성 = 271
  4.8 딥러닝(Deep Learning) = 273
    4.8.1 시너지를 가져오는 손실 함수 사용 = 274
    4.8.2 반응형 활성 함수 사용 = 277
    4.8.3 정규화 = 279
    4.8.4 모델 매개변수의 초기화 = 282
    4.8.5 딥러닝의 특징 = 286
  4.9 서포트 벡터 머신(SVM) = 287
    4.9.1 분리 초평면의 여백 = 287
    4.9.2 선형 SVM = 289
    4.9.3 소프트 마진 SVM = 295
    4.9.4 비선형 SVM = 301
    4.9.5 SVM의 특성 = 305
  4.10 앙상블 기법(Ensenble Method) = 307
    4.10.1 앙상블 기법의 이론적 근거 = 307
    4.10.2 앙상블 분류기 구축법 = 309
    4.10.3 바이어스-분산 분해(Bias-Variance Decomposition) = 311
    4.10.4 배깅(bagging) = 313
    4.10.5 부스팅(boosting) = 315
    4.10.6 랜덤 포레스트(random forest) = 321
    4.10.7 앙상블 방법 간의 경험적 비교 = 323
  4.11 클래스 불균형 문제 = 324
    4.11.1 클래스 불균형을 가진 건물 분류 = 325
    4.11.2 클래스 불균형으로 성능 평가 = 328
    4.11.3 최적의 점수 임계치 찾기 = 333
    4.11.4 종합적인 성능 평가 = 334
  4.12 멀티 클래스 문제 = 341
  4.13 참고문헌 설명 = 344
  4.14 연습문제 = 358
CHAPTER 5 연관 분석 : 기본 개념과 알고리즘
  5.1 서문 = 371
  5.2 빈발 항목집합 생성 = 375
    5.2.1 원리 = 377
    5.2.2 알고리즘에서 빈발 항목집합 생성 = 379
    5.2.3 후보 생성과 가지치기 = 382
    5.2.4 지지도 계산 = 387
    5.2.5 계산 복잡도 = 392
  5.3 규칙 생성 = 395
    5.3.1 신뢰도-기반 가지치기 = 395
    5.3.2 알고리즘에서 규칙 생성 = 396
    5.3.3 예제 : 의회 투표 기록 = 398
  5.4 빈발 항목집합의 간결한 표현 = 399
    5.4.1 최대 빈발 항목집합 = 399
    5.4.2 닫힌 빈발 항목집합 = 401
  5.5 빈발 항목집합 생성을 위한 대체 방법 = 406
  5.6 FP-Growth 알고리즘 = 411
    5.6.1 FP-트리 표현 = 411
    5.6.2 FP-Growth 알고리즘에서 빈발 항목집합 생성 = 414
  5.7 연관 패턴의 평가 = 418
    5.7.1 흥미도의 객관적 척도 = 419
    5.7.2 이진 변수 쌍을 넘어선 척도 = 432
    5.7.3 Simpson의 역설 = 434
  5.8 편향 지지도 분포의 영향 = 436
  5.9 참고문헌 설명 = 442
  5.10 연습문제 = 458
CHAPTER 6 연관 분석 : 고급 개념
  6.1 범주형 속성 처리 = 471
  6.2 연속형 속성 처리 = 474
    6.2.1 이산화-기반 방법 = 475
    6.2.2 통계-기반 방법 = 479
    6.2.3 비-이산화 방법 = 481
  6.3 개념 계층 처리 = 483
  6.4 순차 패턴 = 485
    6.4.1 서문 = 486
    6.4.2 순차 패턴 발견 = 489
    6.4.3 시간 제약조건 = 495
    6.4.4 대체 계산 방법 = 499
  6.5 부분그래프 패턴 = 502
    6.5.1 서문 = 503
    6.5.2 빈발 부분그래프 탐사 = 507
    6.5.3 후보 생성 = 511
    6.5.4 후보 가지치기 = 516
    6.5.5 지지도 계산 = 517
  6.6 비빈발 패턴 = 517
    6.6.1 음의 패턴 = 518
    6.6.2 음의 상관관계 패턴 = 519
    6.6.3 비빈발 패턴, 음의 패턴 및 음의 상관관계 패턴 사이의 비교 = 521
    6.6.4 흥미로운 비빈발 패턴을 탐사하는 기법 = 522
    6.6.5 음의 패턴 탐사에 근거한 기법 = 523
    6.6.6 지지도 기댓값에 근거한 기법 = 526
  6.7 참고문헌 설명 = 530
  6.8 연습문제 = 535
CHAPTER 7 군집 분석 : 기본 개념과 알고리즘
  7.1 개요 = 554
    7.1.1 군집화 분석이란? = 554
    7.1.2 군집화의 종류 = 556
    7.1.3 군집의 종류 = 557
  7.2 K-means = 561
    7.2.1 기본 K-means 알고리즘 = 561
    7.2.2 K-means : 기타 사항 = 572
    7.2.3 이등분 K-means = 574
    7.2.4 K-means와 다양한 종류의 군집들 = 576
    7.2.5 강점과 약점 = 579
    7.2.6 최적화 문제로서의 K-means = 579
  7.3 병합형 계층 군집화(Agglomerative Hierarchical Clustering) = 581
    7.3.1 기본적인 병합형 계층 군집화 알고리즘 = 582
    7.3.2 구체적인 기법들 = 584
    7.3.3 군집 인접성에 대한 Lance-Williams 공식 = 590
    7.3.4 계층 군집화의 주요 문제점 = 591
    7.3.5 이상치 = 593
    7.3.6 강점과 약점 = 593
  7.4 DBSCAN = 593
    7.4.1 전통적 밀도 : 중심 기반의 방법 = 594
    7.4.2 DBSCAN 알고리즘 = 596
    7.4.3 강점과 약점 = 600
  7.5 군집 평가 = 600
    7.5.1 개요 = 602
    7.5.2 응집도와 분리도를 이용한 무감독 군집 평가 = 604
    7.5.3 인접성 행렬을 이용한 무감독 군집 평가 = 612
    7.5.4 계층 군집화의 무감독 평가 = 616
    7.5.5 정확한 군집의 수 결정하기 = 617
    7.5.6 군집화 경향 = 618
    7.5.7 군집 유효성에 대한 감독 척도 = 620
    7.5.8 군집 유효성 척도들의 중요도 평가 = 625
    7.5.9 군집 유효성의 척도 결정 = 627
  7.6 참고문헌 설명 = 629
  7.7 연습문제 = 635
CHAPTER 8 군집 분석 : 기타 주제와 알고리즘
  8.1 데이터, 군집 및 군집화 알고리즘의 특성 = 646
    8.1.1 예 : K-means와 DBSCAN 비교 = 646
    8.1.2 데이터 특성 = 647
    8.1.3 군집의 특성 = 649
    8.1.4 군집 알고리즘의 일반적인 특성 = 651
  8.2 프로토타입 기반 군집화 = 653
    8.2.1 퍼지 군집화 = 653
    8.2.2 혼합 모델을 사용한 군집화 = 659
    8.2.3 자기 구성 지도(SOM) = 670
  8.3 밀도 기반 군집화 = 676
    8.3.1 그리드 기반 군집화 = 677
    8.3.2 부분공간 군집화(Subspace Clustering) = 680
    8.3.3 DENCLUE : 밀도 기반 군집화를 위한 커널 기반 체계 = 685
  8.4 그래프 기반 군집화 = 688
    8.4.1 희소화 = 689
    8.4.2 최소 신장 트리(MST) 군집화 = 690
    8.4.3 OPOSSUM : METIS를 이용한 희소 유사도의 최적 분할 = 692
    8.4.4 카멜레온(Chameleon) : 동적 모델링을 사용한 계층적 군집화 = 693
    8.4.5 스펙트럼 군집화 = 699
    8.4.6 공유 인접 이웃 유사도(Shared Nearest Neighbor Similarity) = 706
    8.4.7 Jarvis-Patrick 군집화 알고리즘 = 710
    8.4.8 SNN 밀도 = 712
    8.4.9 SNN 밀도 기반 군집화 = 713
  8.5 확장 가능한 군집화 알고리즘 = 716
    8.5.1 확장성(Scalability) : 일반적인 문제와 접근 = 716
    8.5.2 BIRCH = 718
    8.5.3 CURE = 721
  8.6 어떤 군집화 알고리즘? = 724
  8.7 참고문헌 설명 = 728
  8.8 연습문제 = 734
CHAPTER 9 이상치 탐지(Anomaly Detection)
  9.1 이상치 탐지 문제의 특성 = 741
    9.1.1 변칙의 정의 = 741
    9.1.2 데이터의 성격 = 742
    9.1.3 이상치 탐지 사용 방법 = 744
  9.2 이상치 탐지 방법의 특성 = 744
  9.3 통계적 접근 = 746
    9.3.1 모수 모델 사용 = 746
    9.3.2 비모수 모델 사용 = 750
    9.3.3 정규 및 비정상 클래스 모델링 = 751
    9.3.4 통계 유의성 평가 = 753
    9.3.5 강점과 약점 = 754
  9.4 근접성(proximity) 접근법 = 755
    9.4.1 거리 기반 이상치 점수 = 755
    9.4.2 밀도 기반 이상 점수 = 757
    9.4.3 상대적 밀도 기반 이상치 점수 = 758
    9.4.4 강점과 약점 = 759
  9.5 군집화 기반 접근법 = 760
    9.5.1 비정상 군집 찾기 = 760
    9.5.2 비정상 인스턴스 찾기 = 761
    9.5.3 강점과 약점 = 764
  9.6 재구성 기반 접근법 = 764
    9.6.1 강점과 약점 = 767
  9.7 단일 분류(one-class classification) = 768
    9.7.1 커널 사용 = 768
    9.7.2 원점 트릭(origin trick) = 769
    9.7.3 강점과 약점 = 774
  9.8 정보 이론적 접근 = 774
    9.8.1 강점과 약점 = 776
  9.9 이상치 탐지 평가 = 776
  9.10 참고문헌 설명 = 779
  9.11 연습문제 = 786
CHAPTER 10 오탐 회피(Avoiding False Discoveries)
  10.1 예비 : 통계 검정(Statistical Testing) = 792
    10.1.1 유의도 검정(Significance Testing) = 793
    10.1.2 가설 검정(Hyphothesis Testing) = 798
    10.1.3 다중 가설 검정 = 803
    10.1.4 통계 검정의 함정 = 812
  10.2 귀무 및 대체 분포 모델링 = 815
    10.2.1 합성 데이터 세트 생성 = 816
    10.2.2 클래스 레이블 무작위 화 = 817
    10.2.3 인스턴스 리샘플링(Resampling Instances) = 818
    10.2.4 검정 통계량 분포 모델링 = 818
  10.3 분류를 위한 통계 테스트 = 819
    10.3.1 분류 성능 평가 = 819
    10.3.2 다중 가설 검정으로 이진 분류 = 820
    10.3.3 모델 선택에서의 다중 가설 검정 = 822
  10.4 연관 분석을 위한 통계 검정 = 823
    10.4.1 통계 모델 사용 = 824
    10.4.2 무작위화(randomization) 방법 사용 = 829
  10.5 군집 분석을 위한 통계 검정 = 831
    10.5.1 내부 척도에 대한 귀무분포 생성 = 832
    10.5.2 외부 척도를 위한 귀무분포 생성 = 833
    10.5.3 농축(Enrichment) = 834
  10.6 이상치 탐지를 위한 통계 검정 = 835
  10.7 참고문헌 설명 = 838
  10.8 연습문제 = 845
닫기