목차
제1장 개론 ... 1
   1.1 데이터마이닝의 필요성과 중요성은 무엇인가? ... 1
   1.2 데이터마이닝이란 무엇인가? ... 4
   1.3 어떤 종류의 데이터에 대한 마이닝인가? ... 9
      1.3.1 관계형 데이터베이스 ... 9
      1.3.2 데이터웨어하우스 ... 11
      1.3.3 트랜잭션 데이터베이스 ... 14
      1.3.4 진보된 데이터 정보 시스템과 응용 ... 15
   1.4 어떤 종류의 패턴을 마이닝할 수 있는가? ... 20
      1.4.1 개념/클래스 서술-특성화와 차별화 ... 21
      1.4.2 빈발패턴, 연관성, 상관성의 마이닝 ... 22
      1.4.3 분류와 예측 ... 23
      1.4.4 군집분석 ... 25
      1.4.5 이상치 분석 ... 26
      1.4.6 전개분석 ... 26
   1.5 모든 패턴이 다 흥미로운가? ... 26
   1.6 데이터마이닝 시스템의 분류 ... 28
   1.7 데이터마이닝 업무의 기본요소 ... 30
   1.8 데이터베이스 시스템과 데이터마이닝 시스템의 통합 ... 33
   1.9 데이터마이닝의 주요 논제 ... 35
   1.10 요약 ... 37
제2장 데이터 사전처리 ... 45
   2.1 왜 데이터를 사전처리하는가? ... 46
   2.2 서술적 데이터 요약 ... 49
      2.2.1 중심경향 측정하기 ... 49
      2.2.2 산포(흩어짐의 정도)측정하기 ... 51
      2.2.3 데이터 요약을 그래프로 표현하기 ... 54
   2.3 데이터 정제 ... 58
      2.3.1 결측치 ... 58
      2.3.2 잡음이 섞인 데이터 ... 60
      2.3.3 하나의 절차로서의 데이터 정제 ... 62
   2.4 데이터 통합과 변환 ... 64
      2.4.1 데이터 통합 ... 64
      2.4.2 데이터 변환 ... 67
   2.5 데이터 축소 ... 69
      2.5.1 데이터큐브 집계 ... 70
      2.5.2 속성 부분집합 선택 ... 71
      2.5.3 차원축소 ... 73
      2.5.4 수량축소 ... 77
   2.6 이산화와 개념계층 생성 ... 83
      2.6.1 수치형 데이터를 위한 이산화와 개념계층 생성 ... 84
      2.6.2 범주형 데이터를 위한 개념계층 생성 ... 90
   2.7 요약 ... 92
제3장 데이터웨어하우스와 OLAP 기술 - 개요 ... 99
   3.1 데이터웨어하우스란 무엇인가? ... 99
      3.1.1 운영 데이터베이스 시스템과 데이터웨어하우스의 차이점 ... 102
      3.1.2 왜 별도의 데이터웨어하우스인가? ... 103
   3.2 다차원 데이터모델 ... 104
      3.2.1 테이블과 스프레드시트에서 데이터큐브까지 ... 104
      3.2.2 스타, 눈송이, 사실성군: 다차원 데이터베이스를 위한 스키마 ... 107
      3.2.3 스타, 눈송이, 사실성군 스키마를 정의하기 위한 예 ... 110
      3.2.4 측도: 범주화와 계산 ... 112
      3.2.5 개념계층 ... 114
      3.2.6 다차원 데이터모델에서의 OLAP 연산 ... 116
      3.2.7 다차원 데이터베이스 질의를 위한 스타넷 질의 모델 ... 119
   3.3 데이터웨어하우스의 구조 ... 120
      3.3.1 데이터웨어하우스의 설계와 구축 단계 ... 121
      3.3.2 3-층 데이터웨어하우스의 구조 ... 123
      3.3.3 데이터웨어하우스 백엔드 도구와 유틸리티 ... 126
      3.3.4 메타데이터 저장소 ... 127
      3.3.5 OLAP 서버의 유형: ROLAP, MOLAP, HOLAP ... 128
   3.4 데이터웨어하우스의 구현 ... 130
      3.4.1 데이터큐브의 효율적인 계산 ... 130
      3.4.2 OLAP 데이터의 인덱싱 ... 134
      3.4.3 OLAP 질의의 효율적인 처리 ... 136
   3.5 데이터웨어하우징으로 부터 데이터마이닝으로 ... 138
      3.5.1 데이터웨어하우스의 활용 ... 139
      3.5.2 온라인 분석처리로부터 온라인 분석 마이닝으로 ... 140
   3.6 요약 ... 143
제4장 데이터큐브의 계산과 일반화 ... 151
   4.1 데이터큐브 계산을 위한 효과적인 방법 ... 151
      4.1.1 다양한 종류의 큐브 형상화을 위한 로드맵 ... 152
      4.1.2 전체 큐브 계산을 위한 다중배열 집계 ... 158
      4.1.3 BUC - 정점 큐보이드로부터 빙산 큐브의 계산 ... 162
      4.1.4 스타-큐빙 - 동적 스타-트리 구조를 이용한 빙산 큐브의 계산 ... 166
      4.1.5 빠른 고차원 OLAP을 위한 쉘 분절의 사전계산 ... 171
      4.1.6 복잡한 빙산 조건을 갖는 큐브 계산 ... 179
   4.2 데이터큐브와 OLAP 기술의 개발 ... 181
      4.2.1 데이터큐브의 발견중심적 탐사 ... 181
      4.2.2 다중입도에서의 복합집계 - 다중특성 큐브 ... 184
      4.2.3 데이터큐브의 제한적 경사분석 ... 187
   4.3 속성지향적 축약 - 데이터 일반화와 개념서술을 위한 대안 ... 190
      4.3.1 데이터 특성화를 위한 속성지향적 귀납법 ... 191
      4.3.2 속성지향적 귀납법의 효과적인 적용 ... 196
      4.3.3 파생된 일반화의 표현 ... 198
      4.3.4 마이닝 클래스 비교 - 다양한 클래스들 간의 차별화 ... 201
      4.3.5 클래스 서술 - 특성화와 비교에 대한 표현 ... 206
   4.4 요약 ... 208
제5장 빈발 패턴, 연관성, 상관성에 대한 마이닝 ... 217
   5.1 기본개념과 로드맵 ... 217
      5.1.1 장바구니분석 - 동기부여 예제 ... 218
      5.1.2 빈발 항목집합, 닫힌 항목집합, 연관규칙 ... 219
      5.1.3 빈발 패턴 마이닝: 로드맵 ... 222
   5.2 빈발 항목집합 마이닝의 효과적이고 확장가능한 방법들 ... 224
      5.2.1 Apriori 알고리즘: 후보 생성을 통한 빈발 항목집합 찾기 ... 224
      5.2.2 빈발 항목집합으로부터 연관규칙 생성 ... 228
      5.2.3 Apriori의 효율을 증대시키는 기법 ... 230
      5.2.4 후보 생성이 없는 빈발 항목집합 마이닝 ... 232
      5.2.5 수직 데이터 포맷을 이용한 빈발 항목집합 마이닝 ... 235
      5.2.6 닫힌 빈발 항목집합 마이닝 ... 237
   5.3 다양한 종류의 연관규칙 마이닝 ... 239
      5.3.1 다수준 연관규칙 마이닝 ... 240
      5.3.2 관계형 데이터베이스와 데이터웨어하우스의 다차원 연관규칙 마이닝 ... 243
   5.4 연관규칙 마이닝과 상관분석 ... 248
      5.4.1 강한 연관규칙이 반드시 유용한 것은 아니다. - 사례 ... 249
      5.4.2 연관분석에서 상관분석으로 ... 249
   5.5 제약기반 연관성 마이닝 ... 254
      5.5.1 메타규칙기반 연관규칙 마이닝 ... 255
      5.5.2 규칙 제약에 기반한 마이닝 ... 256
   5.6 요약 ... 260
제6장 분류와 예측 ... 271
   6.1 분류란 무엇인가? 예측이란 무엇인가? ... 271
   6.2 분류와 예측에서의 논제들 ... 275
      6.2.1 분류와 예측을 위한 데이터 준비 ... 275
      6.2.2 분류와 예측방법의 비교 ... 276
   6.3 의사결정나무에 의한 분류 ... 277
      6.3.1 의사결정나무의 구축 ... 278
      6.3.2 속성선택 측도 ... 281
      6.3.3 의사결정나무 가지치기 ... 288
      6.3.4 확장가능성과 의사결정나무의 구축 ... 290
   6.4 베이지안 분류 ... 294
      6.4.1 베이즈 정리 ... 294
      6.4.2 단순 베이지안 분류 ... 295
      6.4.3 베이지안 신뢰 네트워크 ... 298
      6.4.4 베이지안 신뢰 네트워크 학습 ... 300
   6.5 규칙기반 분류 ... 302
      6.5.1 분류를 위한 IF-THEN 규칙의 사용 ... 302
      6.5.2 의사결정나무로부터의 규칙추출 ... 304
      6.5.3 순차포괄 알고리즘을 이용한 규칙추론 ... 305
   6.6 역전파에 의한 분류 ... 310
      6.6.1 다층 전방향 신경망 ... 311
      6.6.2 네트워크 구조의 정의 ... 312
      6.6.3 역전파 알고리즘 ... 312
      6.6.4 블랙박스의 내부 - 역전파와 해석력 ... 317
   6.7 서포트 벡터 기계학습 ... 319
      6.7.1 데이터가 선형으로 분리되는 경우 ... 319
      6.7.2 데이터가 선형으로 분리되지 않는 경우 ... 323
   6.8 연관분류 - 연관규칙 분석에 의한 분류 ... 325
   6.9 게으른 학습기 ... 328
      6.9.1 κ-근접이웃 분류기 ... 329
      6.9.2 사례-기반 추론 ... 330
   6.10 다른 분류방법 ... 331
      6.10.1 유전자 알고리즘 ... 331
      6.10.2 러프집합 기법 ... 332
      6.10.3 퍼지집합 접근법 ... 333
   6.11 예측 ... 335
      6.11.1 선형 회귀 ... 335
      6.11.2 비선형 회귀 ... 337
      6.11.3 회귀에 기반한 다른 방법들 ... 338
   6.12 정확도와 오차측도 ... 339
      6.12.1 분류기 정확도의 측도들 ... 340
      6.12.2 예측오차 측도 ... 342
   6.13 분류기 혹은 예측기의 정확도 평가 ... 343
      6.13.1 예비 방법과 무작위 부분추출 ... 343
      6.13.2 교차타당법 ... 344
      6.13.3 붓스트랩 ... 344
   6.14 앙상블 방법 - 정확도 높이기 ... 345
      6.14.1 배깅(Bagging) ... 346
      6.14.2 부스팅(Boosting) ... 346
   6.15 모형선택 ... 349
      6.15.1 신뢰구간 추정하기 ... 350
      6.15.2 ROC 곡선 ... 351
   6.16 요약 ... 352
제7장 군집분석 ... 361
   7.1 군집분석이란? ... 361
   7.2 군집분석의 데이터 유형 ... 364
      7.2.1 구간척도 변수 ... 365
      7.2.2 이항형 변수 ... 367
      7.2.3 범주형, 순서형, 비율척도 변수 ... 369
      7.2.4 혼합형 변수(Variables of Mixed Types) ... 372
      7.2.5 벡터 객체 (Vector Objects) ... 374
   7.3 중요한 군집화 방법들의 분류 ... 375
   7.4 분할 방법 ... 377
      7.4.1 고전적 분할 방법 - κ-평균과 κ-중앙객체 ... 378
      7.4.2 대규모 데이터베이스에서의 분할 방법 - CLARANS ... 382
   7.5 계보적 기법 ... 383
      7.5.1 병합적인 그리고 분할적인 계보적 군집화 ... 384
      7.5.2 BIRCH - 계보를 이용한 균형된 반복적 감소와 군집화 ... 386
      7.5.3 ROCK - 범주형 변수에 대한 계보적 군집화 알고리즘 ... 389
      7.5.4 Chameleon - 동적 모델링을 이용한 계보적 군집화 알고리즘 ... 390
   7.6 밀도-기반 방법 ... 392
      7.6.1 DBSCAN -고밀도 연결영역에 기초한 밀도-기반 군집화 방법 ... 392
      7.6.2 OPTICS - 군집화 구조를 확인하기 위한 점들의 순서화 ... 394
      7.6.3 DENCLUE - 밀도분포함수에 기반한 군집화 ... 396
   7.7 격자-기반 방법들 ... 398
      7.7.1 STING - STatistical INformation Grid ... 398
      7.7.2 WaveCluster - 웨이블렛 변환을 이용한 군집화 ... 400
   7.8 모형-기반 군집화 방법 ... 401
      7.8.1 EM(Expectation-Maximization) ... 402
      7.8.2 개념적 군집화 ... 403
      7.8.3 신경망 접근방식 ... 405
   7.9 고차원 데이터의 군집화 ... 406
      7.9.1 CLIQUE - 차원-증가 부분공간 군집화 방법 ... 408
      7.9.2 PROCLUS - 차원-감소 부분공간 군집화 방법 ... 410
      7.9.3 빈발 패턴-기반 군집화 방법 ... 411
   7.10 제약-기반 군집분석 ... 415
      7.10.1 장애물 객체를 가진 군집화 ... 417
      7.10.2 사용자-제약 군집분석 ... 418
      7.10.3 부분-지도 군집분석 ... 419
   7.11 이상치 분석(Outlier Analysis) ... 421
      7.11.1 통계-기반 이상치 탐지 ... 422
      7.11.2 거리-기반 이상치 발견 ... 424
      7.11.3 밀도-기반 지역 이상치 탐지 ... 425
      7.11.4 편차-기반 이상치 탐지 ... 427
   7.12 요약 ... 429
제8장 스트림, 시계열, 순차 데이터에 대한 마이닝 ... 437
   8.1 데이터 스트림에 대한 마이닝 ... 438
      8.1.1 스트림 데이터 처리와 스트림 데이터 시스템을 위한 방법론 ... 439
      8.1.2 스트림 OLAP과 스트림 데이터큐브 ... 444
      8.1.3 데이터 스트림에서의 빈발 패턴 마이닝 ... 449
      8.1.4 동적 데이터 스트림의 분류 ... 451
      8.1.5 진화 데이터 스트림의 군집화 ... 455
   8.2 시계열 데이터의 마이닝 ... 459
      8.2.1 추세분석 ... 459
      8.2.2 시계열 분석에서 유사성 탐색 ... 462
   8.3 트랜잭션 데이터에서의 순차패턴 마이닝 ... 466
      8.3.1 순차패턴 마이닝 - 개념과 원칙 ... 466
      8.3.2 순차패턴의 마이닝을 위한 다양한 방법 ... 468
      8.3.3 순차패턴의 제약-기반 마이닝 ... 478
      8.3.4 시간-관련 순차 데이터를 위한 주기성 분석 ... 481
   8.4 생물학 데이터에서의 순차패턴 마이닝 ... 482
      8.4.1 생물학적 순차에 대한 정렬화 ... 483
      8.4.2 생물학적 순차분석을 위한 은닉 마코프 모형 ... 487
   8.5 요약 ... 495
제9장 그래프 마이닝, 사회적 네트워크 분석, 다중관계형 데이터마이닝 ... 505
   9.1 그래프 마이닝 ... 505
      9.1.1 빈발 부분그래프 마이닝을 위한 방법들 ... 506
      9.1.2 변형과 제약조건이 있는 부분구조 패턴 마이닝 ... 514
      9.1.3 응용 - 그래프 인덱싱, 유사성 탐색, 분류 및 군집화 ... 521
   9.2 사회적 네트워크 분석 ... 525
      9.2.1 사회적 네트워크란 무엇인가? ... 525
      9.2.2 사회적 네트워크의 특성들 ... 527
      9.2.3 연결 마이닝 - 작업과 도전 ... 530
      9.2.4 사회적 네트워크 마이닝 ... 533
   9.3 다중관계형 <B><FONT color ... #0000
      9.3.1 다중관계형 데이터마이닝은 무엇인가? ... 540
      9.3.2 다중관계형 분류로의 ILP 접근 ... 542
      9.3.3 투플 ID 전파 ... 544
      9.3.4 투플 ID 전파를 이용한 다중관계형 분류 ... 545
      9.3.5 사용자 길잡이 다중관계형 군집화 ... 548
   9.4 요약 ... 551
제10장 객체, 공간, 멀티미디어, 텍스트, 웹 <B><FONT color ... #0000
   10.1 다차원 분석과 복합 데이터 객체의 서술적 마이닝 ... 559
      10.1.1 구조화된 데이터의 일반화 ... 560
      10.1.2 공간과 멀티미디어 데이터 일반화에 대한 집계와 근사 ... 561
      10.1.3 객체 식별자의 일반화와 클래스/부분클래스 체계 ... 562
      10.1.4 클래스 구성 체계의 일반화 ... 563
      10.1.5 객체 큐브 구성과 마이닝 ... 564
      10.1.6 분할-정복에 의한 일정 데이터베이스의 일반화 기반 마이닝 ... 564
   10.2 공간 <B><FONT color ... #0000
      10.2.1 공간 데이터 큐브 구성과 공간 OLAP ... 569
      10.2.2 공간 연관 마이닝과 공동-발견 패턴 ... 572
      10.2.3 공간 군집화 방법들 ... 574
      10.2.4 공간 분류와 공간 추세분석 ... 574
      10.2.5 래스터 데이터베이스 마이닝 ... 574
   10.3 멀티미디어 데이터마이닝 ... 575
      10.3.1 멀티미디어 데이터에서의 유사성 탐색 ... 575
      10.3.2 멀티미디어 데이터의 다차원 분석 ... 577
      10.3.3 분류와 멀티미디어 데이터의 예측 분석 ... 579
      10.3.4 멀티미디어 데이터에서 연관 마이닝 ... 580
      10.3.5 오디오와 비디오 데이터마이닝 ... 581
   10.4 텍스트 마이닝 ... 582
      10.4.1 텍스트 데이터 분석과 정보검색 ... 582
      10.4.2 텍스트를 위한 차원축소 ... 589
      10.4.3 텍스트 마이닝 접근방법 ... 591
   10.5 웹 마이닝 ... 596
      10.5.1 웹 페이지 설계 구조 마이닝 ... 597
      10.5.2 믿을 만한 웹 페이지를 식별하기 위한 웹 링크 구조 마이닝 ... 599
      10.5.3 웹의 멀티미디어 데이터마이닝 ... 604
      10.5.4 웹 문서의 자동 분류 ... 606
      10.5.5 웹 유시지 마이닝 ... 607
   10.6 요약 ... 608
제11장 데이터마이닝의 응용과 방향 ... 617
   11.1 데이터마이닝 응용 ... 617
      11.1.1 금율 데이터 분석을 위한 데이터마이닝 ... 617
      11.1.2 소매업을 위한 데이터마이닝 ... 618
      11.1.3 통신 사업자를 위한 데이터마이닝 ... 620
      11.1.4 생물학 데이터 분석을 위한 데이터마이닝 ... 621
      11.1.5 다른 과학 응용분야에서의 데이터마이닝 ... 624
      11.1.6 침입 탐지를 위한 데이터마이닝 ... 625
   11.2 데이터마이닝 시스템 제품과 연구 프로토타입 ... 626
      11.2.1 데이터마이닝 시스템을 선택하는 방법 ... 627
      11.2.2 상용 데이터마이닝 시스템의 예 ... 629
   11.3 데이터마이닝에 대한 부가적인 주제 ... 631
      11.3.1 데이터마이닝의 이론적인 기초 ... 631
      11.3.2 통계적 데이터마이닝 ... 632
      11.3.3 시각과 음성 데이터마이닝 ... 634
      11.3.4 데이터마이닝과 협업적 필터링 ... 637
   11.4 데이터마이닝의 사회적 영향 ... 640
      11.4.1 유비쿼터스와 숨겨진 데이터마이닝 ... 640
      11.4.2 데이터마이닝, 사생활, 데이터 보안 ... 644
   11.5 데이터마이닝의 추세 ... 646
   11.6 요약 ... 649
부록 - Microsoft OLE DB for Data Mining의 소개 ... 657
   A.1 모델 생성 ... 659
   A.2 모델 훈련 ... 660
   A.3 예측 및 브라우징 ... 662
참고문헌 ... 667
찾아보기 ... 703
닫기