목차 일부
CHAPTER 1 서론
1.1 데이터 마이닝이란 무엇인가? = 4
1.2 도전에 동기부여하기 = 5
1.3 데이터 마이닝의 기원 = 7
1.4 데이터 마이닝 작업 = 9
1.5 책의 범위와 구성 = 14
1.6 참고문헌 설명 = 15
1.7 연습문제 = 22
CHAPTER 2 데이터
2.1 데이터의 타입 = 26...
더보기
목차 전체
CHAPTER 1 서론
1.1 데이터 마이닝이란 무엇인가? = 4
1.2 도전에 동기부여하기 = 5
1.3 데이터 마이닝의 기원 = 7
1.4 데이터 마이닝 작업 = 9
1.5 책의 범위와 구성 = 14
1.6 참고문헌 설명 = 15
1.7 연습문제 = 22
CHAPTER 2 데이터
2.1 데이터의 타입 = 26
2.1.1 속성과 측정 = 27
2.1.2 데이터 집합의 타입 = 34
2.2 데이터 품질 = 42
2.2.1 측정과 데이터 수집 문제 = 43
2.2.2 응용과 관련된 문제 = 50
2.3 데이터 전처리 = 51
2.3.1 총계 = 52
2.3.2 표본추출 = 54
2.3.3 차원 축소 = 57
2.3.4 특징 부분집합 선택 = 59
2.3.5 특징 생성 = 62
2.3.6 이산화와 이진화 = 64
2.3.7 변수 변환 = 70
2.4 유사도와 비유사도의 척도 = 72
2.4.1 기초 = 73
2.4.2 단순 속성간의 유사도와 비유사도 = 75
2.4.3 데이터 객체간의 비유사도 = 76
2.4.4 데이터 객체간의 유사도 = 79
2.4.5 근접도 척도의 예 = 80
2.4.6 상호 정보 = 90
2.4.7 커널 함수 = 91
2.4.8 브레그만 발산 = 96
2.4.9 근접도 계산의 문제들 = 98
2.4.10 올바른 근접도 척도의 선택 = 101
2.5 참고문헌 설명 = 103
2.6 연습문제 = 109
CHAPTER 3 분류 : 기본개념과 기법
3.1 기본 개념 = 118
3.2 분류를 위한 일반적인 구조 = 122
3.3 의사결정 트리 분류기(Decision Tree Classifier) = 124
3.3.1 기본적인 의사결정 트리 구축 알고리즘 = 126
3.3.2 속성 시험조건 표현 방법 = 130
3.3.3 속성 시험조건 선택 척도 = 132
3.3.4 의사결정 트리 귀납 알고리즘 = 142
3.3.5 응용 예 : 웹 로봇 탐지 = 144
3.3.6 의사결정 트리 분류기의 특성 = 146
3.4 모델 과잉적합 = 154
3.4.1 모델 과잉적합의 원인 = 156
3.5 모델 선택 = 162
3.5.1 검증 집합의 사용 = 163
3.5.2 모델 복잡도 추가하기 = 164
3.5.3 통계적 한계의 추정 = 168
3.5.4 의사결정 트리를 위한 모델 선택 = 169
3.6 모델 평가 = 171
3.6.1 홀드아웃 방법 = 172
3.6.2 교차 검증 = 173
3.7 하이퍼 파라미터의 존재 = 175
3.7.1 하이퍼 파라미터 선택 = 176
3.7.2 중첩 교차검증 = 178
3.8 모델 선택과 평가의 문제들 = 179
3.8.1 훈련 집합과 시험 집합의 중복 = 180
3.8.2 일반화오류로 검증오류의 사용 = 180
3.9 모델 비교 = 181
3.9.1 정확도의 신뢰 구간 추정하기 = 182
3.9.2 두 모델의 성능 비교 = 184
3.10 참고문헌 설명 = 185
3.11 연습문제 = 194
CHAPTER 4 분류 : 기타 기법
4.1 분류기의 종류 = 203
4.2 규칙 기반 분류기 = 205
4.2.1 규칙 기반 분류기가 작동하는 방식 = 208
4.2.2 규칙 집합의 속성 = 208
4.2.3 규칙 추출을 위한 직접적인 방법 = 210
4.2.4 규칙 추출을 위한 간접적 방법 = 215
4.2.5 규칙 기반 분류기의 특성 = 218
4.3 최근접 분류기(Nearest Neighbor Classifiers) = 219
4.3.1 알고리즘 = 221
4.3.2 최근접 이웃 분류기의 특성 = 222
4.4 나이브 베이지안(Naive Bayes) 분류기 = 223
4.4.1 확률론의 기초 = 224
4.4.2 나이브 베이즈 가정 = 229
4.5 베이지안 네트워크 = 239
4.5.1 그래픽 표현 = 239
4.5.2 추론과 학습 = 245
4.5.3 베이지안 네트워크의 특성 = 253
4.6 로지스틱 회귀(Logistic Regression) = 254
4.6.1 일반화된 선형 모형으로서의 로지스틱 회귀 = 256
4.6.2 학습 모델 매개 변수 = 257
4.6.3 로지스틱 회귀의 특성 = 259
4.7 인공 신경망 네트워크(ANN) = 260
4.7.1 퍼셉트론 = 262
4.7.2 다계층 신경망 = 265
4.7.3 ANN의 특성 = 271
4.8 딥러닝(Deep Learning) = 273
4.8.1 시너지를 가져오는 손실 함수 사용 = 274
4.8.2 반응형 활성 함수 사용 = 277
4.8.3 정규화 = 279
4.8.4 모델 매개변수의 초기화 = 282
4.8.5 딥러닝의 특징 = 286
4.9 서포트 벡터 머신(SVM) = 287
4.9.1 분리 초평면의 여백 = 287
4.9.2 선형 SVM = 289
4.9.3 소프트 마진 SVM = 295
4.9.4 비선형 SVM = 301
4.9.5 SVM의 특성 = 305
4.10 앙상블 기법(Ensenble Method) = 307
4.10.1 앙상블 기법의 이론적 근거 = 307
4.10.2 앙상블 분류기 구축법 = 309
4.10.3 바이어스-분산 분해(Bias-Variance Decomposition) = 311
4.10.4 배깅(bagging) = 313
4.10.5 부스팅(boosting) = 315
4.10.6 랜덤 포레스트(random forest) = 321
4.10.7 앙상블 방법 간의 경험적 비교 = 323
4.11 클래스 불균형 문제 = 324
4.11.1 클래스 불균형을 가진 건물 분류 = 325
4.11.2 클래스 불균형으로 성능 평가 = 328
4.11.3 최적의 점수 임계치 찾기 = 333
4.11.4 종합적인 성능 평가 = 334
4.12 멀티 클래스 문제 = 341
4.13 참고문헌 설명 = 344
4.14 연습문제 = 358
CHAPTER 5 연관 분석 : 기본 개념과 알고리즘
5.1 서문 = 371
5.2 빈발 항목집합 생성 = 375
5.2.1 원리 = 377
5.2.2 알고리즘에서 빈발 항목집합 생성 = 379
5.2.3 후보 생성과 가지치기 = 382
5.2.4 지지도 계산 = 387
5.2.5 계산 복잡도 = 392
5.3 규칙 생성 = 395
5.3.1 신뢰도-기반 가지치기 = 395
5.3.2 알고리즘에서 규칙 생성 = 396
5.3.3 예제 : 의회 투표 기록 = 398
5.4 빈발 항목집합의 간결한 표현 = 399
5.4.1 최대 빈발 항목집합 = 399
5.4.2 닫힌 빈발 항목집합 = 401
5.5 빈발 항목집합 생성을 위한 대체 방법 = 406
5.6 FP-Growth 알고리즘 = 411
5.6.1 FP-트리 표현 = 411
5.6.2 FP-Growth 알고리즘에서 빈발 항목집합 생성 = 414
5.7 연관 패턴의 평가 = 418
5.7.1 흥미도의 객관적 척도 = 419
5.7.2 이진 변수 쌍을 넘어선 척도 = 432
5.7.3 Simpson의 역설 = 434
5.8 편향 지지도 분포의 영향 = 436
5.9 참고문헌 설명 = 442
5.10 연습문제 = 458
CHAPTER 6 연관 분석 : 고급 개념
6.1 범주형 속성 처리 = 471
6.2 연속형 속성 처리 = 474
6.2.1 이산화-기반 방법 = 475
6.2.2 통계-기반 방법 = 479
6.2.3 비-이산화 방법 = 481
6.3 개념 계층 처리 = 483
6.4 순차 패턴 = 485
6.4.1 서문 = 486
6.4.2 순차 패턴 발견 = 489
6.4.3 시간 제약조건 = 495
6.4.4 대체 계산 방법 = 499
6.5 부분그래프 패턴 = 502
6.5.1 서문 = 503
6.5.2 빈발 부분그래프 탐사 = 507
6.5.3 후보 생성 = 511
6.5.4 후보 가지치기 = 516
6.5.5 지지도 계산 = 517
6.6 비빈발 패턴 = 517
6.6.1 음의 패턴 = 518
6.6.2 음의 상관관계 패턴 = 519
6.6.3 비빈발 패턴, 음의 패턴 및 음의 상관관계 패턴 사이의 비교 = 521
6.6.4 흥미로운 비빈발 패턴을 탐사하는 기법 = 522
6.6.5 음의 패턴 탐사에 근거한 기법 = 523
6.6.6 지지도 기댓값에 근거한 기법 = 526
6.7 참고문헌 설명 = 530
6.8 연습문제 = 535
CHAPTER 7 군집 분석 : 기본 개념과 알고리즘
7.1 개요 = 554
7.1.1 군집화 분석이란? = 554
7.1.2 군집화의 종류 = 556
7.1.3 군집의 종류 = 557
7.2 K-means = 561
7.2.1 기본 K-means 알고리즘 = 561
7.2.2 K-means : 기타 사항 = 572
7.2.3 이등분 K-means = 574
7.2.4 K-means와 다양한 종류의 군집들 = 576
7.2.5 강점과 약점 = 579
7.2.6 최적화 문제로서의 K-means = 579
7.3 병합형 계층 군집화(Agglomerative Hierarchical Clustering) = 581
7.3.1 기본적인 병합형 계층 군집화 알고리즘 = 582
7.3.2 구체적인 기법들 = 584
7.3.3 군집 인접성에 대한 Lance-Williams 공식 = 590
7.3.4 계층 군집화의 주요 문제점 = 591
7.3.5 이상치 = 593
7.3.6 강점과 약점 = 593
7.4 DBSCAN = 593
7.4.1 전통적 밀도 : 중심 기반의 방법 = 594
7.4.2 DBSCAN 알고리즘 = 596
7.4.3 강점과 약점 = 600
7.5 군집 평가 = 600
7.5.1 개요 = 602
7.5.2 응집도와 분리도를 이용한 무감독 군집 평가 = 604
7.5.3 인접성 행렬을 이용한 무감독 군집 평가 = 612
7.5.4 계층 군집화의 무감독 평가 = 616
7.5.5 정확한 군집의 수 결정하기 = 617
7.5.6 군집화 경향 = 618
7.5.7 군집 유효성에 대한 감독 척도 = 620
7.5.8 군집 유효성 척도들의 중요도 평가 = 625
7.5.9 군집 유효성의 척도 결정 = 627
7.6 참고문헌 설명 = 629
7.7 연습문제 = 635
CHAPTER 8 군집 분석 : 기타 주제와 알고리즘
8.1 데이터, 군집 및 군집화 알고리즘의 특성 = 646
8.1.1 예 : K-means와 DBSCAN 비교 = 646
8.1.2 데이터 특성 = 647
8.1.3 군집의 특성 = 649
8.1.4 군집 알고리즘의 일반적인 특성 = 651
8.2 프로토타입 기반 군집화 = 653
8.2.1 퍼지 군집화 = 653
8.2.2 혼합 모델을 사용한 군집화 = 659
8.2.3 자기 구성 지도(SOM) = 670
8.3 밀도 기반 군집화 = 676
8.3.1 그리드 기반 군집화 = 677
8.3.2 부분공간 군집화(Subspace Clustering) = 680
8.3.3 DENCLUE : 밀도 기반 군집화를 위한 커널 기반 체계 = 685
8.4 그래프 기반 군집화 = 688
8.4.1 희소화 = 689
8.4.2 최소 신장 트리(MST) 군집화 = 690
8.4.3 OPOSSUM : METIS를 이용한 희소 유사도의 최적 분할 = 692
8.4.4 카멜레온(Chameleon) : 동적 모델링을 사용한 계층적 군집화 = 693
8.4.5 스펙트럼 군집화 = 699
8.4.6 공유 인접 이웃 유사도(Shared Nearest Neighbor Similarity) = 706
8.4.7 Jarvis-Patrick 군집화 알고리즘 = 710
8.4.8 SNN 밀도 = 712
8.4.9 SNN 밀도 기반 군집화 = 713
8.5 확장 가능한 군집화 알고리즘 = 716
8.5.1 확장성(Scalability) : 일반적인 문제와 접근 = 716
8.5.2 BIRCH = 718
8.5.3 CURE = 721
8.6 어떤 군집화 알고리즘? = 724
8.7 참고문헌 설명 = 728
8.8 연습문제 = 734
CHAPTER 9 이상치 탐지(Anomaly Detection)
9.1 이상치 탐지 문제의 특성 = 741
9.1.1 변칙의 정의 = 741
9.1.2 데이터의 성격 = 742
9.1.3 이상치 탐지 사용 방법 = 744
9.2 이상치 탐지 방법의 특성 = 744
9.3 통계적 접근 = 746
9.3.1 모수 모델 사용 = 746
9.3.2 비모수 모델 사용 = 750
9.3.3 정규 및 비정상 클래스 모델링 = 751
9.3.4 통계 유의성 평가 = 753
9.3.5 강점과 약점 = 754
9.4 근접성(proximity) 접근법 = 755
9.4.1 거리 기반 이상치 점수 = 755
9.4.2 밀도 기반 이상 점수 = 757
9.4.3 상대적 밀도 기반 이상치 점수 = 758
9.4.4 강점과 약점 = 759
9.5 군집화 기반 접근법 = 760
9.5.1 비정상 군집 찾기 = 760
9.5.2 비정상 인스턴스 찾기 = 761
9.5.3 강점과 약점 = 764
9.6 재구성 기반 접근법 = 764
9.6.1 강점과 약점 = 767
9.7 단일 분류(one-class classification) = 768
9.7.1 커널 사용 = 768
9.7.2 원점 트릭(origin trick) = 769
9.7.3 강점과 약점 = 774
9.8 정보 이론적 접근 = 774
9.8.1 강점과 약점 = 776
9.9 이상치 탐지 평가 = 776
9.10 참고문헌 설명 = 779
9.11 연습문제 = 786
CHAPTER 10 오탐 회피(Avoiding False Discoveries)
10.1 예비 : 통계 검정(Statistical Testing) = 792
10.1.1 유의도 검정(Significance Testing) = 793
10.1.2 가설 검정(Hyphothesis Testing) = 798
10.1.3 다중 가설 검정 = 803
10.1.4 통계 검정의 함정 = 812
10.2 귀무 및 대체 분포 모델링 = 815
10.2.1 합성 데이터 세트 생성 = 816
10.2.2 클래스 레이블 무작위 화 = 817
10.2.3 인스턴스 리샘플링(Resampling Instances) = 818
10.2.4 검정 통계량 분포 모델링 = 818
10.3 분류를 위한 통계 테스트 = 819
10.3.1 분류 성능 평가 = 819
10.3.2 다중 가설 검정으로 이진 분류 = 820
10.3.3 모델 선택에서의 다중 가설 검정 = 822
10.4 연관 분석을 위한 통계 검정 = 823
10.4.1 통계 모델 사용 = 824
10.4.2 무작위화(randomization) 방법 사용 = 829
10.5 군집 분석을 위한 통계 검정 = 831
10.5.1 내부 척도에 대한 귀무분포 생성 = 832
10.5.2 외부 척도를 위한 귀무분포 생성 = 833
10.5.3 농축(Enrichment) = 834
10.6 이상치 탐지를 위한 통계 검정 = 835
10.7 참고문헌 설명 = 838
10.8 연습문제 = 845
더보기 닫기