지은이 소개 ... 4 감사의 글 ... 6 옮긴이 소개 ... 10 옮긴이의 말 ... 11 들어가며 ... 35 Ⅰ부 <B><FONT color ... #0000 1장 <B><FONT color ... #0000 1.1 <B><FONT color ... #0000 구조적 패턴 서술 ... 48 기계 학습 ... 50 <B><FONT color ... #0000 1.2 간단한 예제 : 기상 예제와 기타 예제 ... 53 기상 문제 ... 53 콘택트렌즈 : 이상적인 문제 ... 56 붓꽃 : 고전적인 수치 데이터 집합 ... 59 CPU 성능 : 수치적 예측 방법에 대한 소개 ... 60 노조 협상 : 더욱 현실적인 예제 ... 62 콩 분류 : 성공적인 기계 학습의 전형을 보여주는 예제 ... 65 1.3 실무 적용 ... 68 웹 마이닝 ... 68 판단을 수반하는 결정 ... 69 이미지 스크리닝 ... 70 전력 부하 예측 ... 71 진단 ... 73 마케팅과 판매 영업 ... 74 기타 적용 사례 ... 76 1.4 기계 학습과 통계학 ... 77 1.5 검색 일반화 ... 79 1.6 <B><FONT color ... #0000 재식별 작업 ... 84 개인 정보의 이용 ... 85 더 광범위한 문제점 ... 86 1.7 참고 문헌 ... 87 2장 입력 데이터 : 개념, 인스턴스 속성 ... 91 2.1 개념이란? ... 92 2.2 예제란? ... 95 관계 ... 96 다른 종류의 예제 타입 ... 100 2.3 속성이란? ... 103 2.4 입력 데이터 준비 ... 106 데이터 수집 ... 106 ARFF 포맷 ... 107 희소 데이터 ... 111 속성 타입 ... 112 누락된 속성 값 ... 114 부정확한 속성 값 ... 115 자신의 데이터를 알라 ... 117 2.5 참고 문헌 ... 117 3장 출력 데이터 : 지식 표현 ... 119 3.1 테이블 ... 120 3.2 선형 모델 ... 120 3.3 트리 ... 122 3.4 규칙 ... 127 분류 규칙 ... 128 연관 규칙 ... 132 예외를 갖는 규칙 ... 133 더욱 자세하게 표현되는 규칙 ... 136 3.5 인스턴스 기반의 표현 ... 139 3.6 클러스터 ... 142 3.7 참고 문헌 ... 143 4장 알고리즘 : 기본 마이닝 알고리즘 ... 145 4.1 기본 규칙 추론 ... 146 누락된 속성 값과 수치 속성 ... 148 논의 사항 ... 150 4.2 통계 모델링 ... 152 누락된 속성 값과 수치 속성 ... 157 단순 베이지안 이론을 통한 문서 분류 ... 160 논의 사항 ... 162 4.3 분할 정복 기법 : 의사 결정 트리 구축 ... 163 정보 계산 ... 167 다양하게 전개되는 속성 ... 169 논의 사항 ... 174 4.4 알고리즘 : 규칙 구성 ... 174 규칙과 트리 ... 176 단순 포괄 알고리즘 ... 176 규칙과 의사 결정 리스트 ... 183 4.5 연관 규칙 마이닝 ... 184 아이템 집합 ... 185 연관 규칙 ... 188 효율적인 규칙 생성 ... 191 논의 사항 ... 194 4.6 선형 모델 ... 194 수치 예측 : 선형 회귀 ... 195 선형 분류 : 로지스틱 회귀 ... 196 퍼셉트론을 사용한 선형 분류 ... 199 필터링을 통한 선형 분류 ... 201 4.7 인스턴스 기반 학습 ... 203 거리 함수 ... 203 효율적인 최근접 이웃 검색 ... 204 논의 사항 ... 210 4.8 군집화 ... 212 반복적인 거리 기반 군집화 알고리즘 ... 213 더욱 빠른 거리 계산 ... 214 논의 사항 ... 216 4.9 다중 인스턴스 학습 ... 216 입력 값 축적 ... 217 출력 데이터 축적 ... 217 논의 사항 ... 218 4.10 참고 문헌 ... 218 4.11 웨카를 이용한 구현 ... 221 5장 신뢰성 : 학습 내용 평가 ... 223 5.1 훈련과 검증 ... 224 5.2 예측 성능 ... 227 5.3 교차 검증 ... 230 5.4 다른 추정자 ... 232 단일 잔류 교차 검증 ... 233 부트스트랩 ... 233 5.5 <B><FONT color ... #0000 5.6 확률 예측 ... 239 이차 손실 함수 ... 240 정보 손실 함수 ... 242 논의 사항 ... 243 5.7 비용 고려 ... 244 비용에 민감한 분류 알고리즘 ... 248 비용에 민감한 학습 알고리즘 ... 249 향상도 차트 ... 250 ROC 곡선 ... 255 재현-정확도 곡선 ... 258 논의 사항 ... 259 비용 곡선 ... 262 5.8 수치 예측 결과 평가 ... 265 5.9 최소 묘사 길이 원칙 ... 268 5.10 군집화 작업에 MDL 원칙 적용 ... 272 5.11 참고 문헌 ... 274 Ⅱ부 고급 <B><FONT color ... #0000 6장 구현 : 실질적인 기계 학습 스킴 ... 277 6.1 의사 결정 트리 ... 279 수치 속성 ... 279 누락된 속성 값 ... 281 가지치기 ... 282 오차율 추정 ... 285 의사 결정 트리 유도의 복잡성 ... 287 트리부터 규칙까지 ... 289 C4.5 : 선택과 옵션 ... 290 비용 - 복잡도 가지치기 ... 291 논의 사항 ... 292 6.2 분류 규칙 ... 293 검증 선택 기준 ... 293 누락된 속성 값과 수치 타입의 속성 값 ... 295 좋은 규칙 생성 ... 295 전반적인 최적화 기법 사용 ... 299 부분 의사 결정 트리로부터 규칙을 얻는 방법 ... 301 예외를 갖는 규칙 ... 304 논의 사항 ... 308 6.3 연관 규칙 ... 309 FP-트리 구축 ... 310 큰 아이템 집합 검색 ... 315 논의 사항 ... 317 6.4 확장된 선형 모델 ... 318 최대 마진 초월 평면 ... 319 비선형 클래스 경계 ... 321 Support Vector 회귀 ... 323 커널 능형 회귀 ... 326 커널 퍼셉트론 ... 327 다중 퍼셉트론 ... 329 방사 기저 함수 네트워크 ... 339 확률적 기울기 하강 ... 340 논의 사항 ... 342 6.5 인스턴스 기반 학습 ... 343 모범 예제의 수 줄이기 ... 344 잡음 있는 모범 예제 가지치기 ... 344 속성에 가중치 부여 ... 346 모범 예제의 일반화 ... 347 일반화된 모범 예제들의 거리 함수 ... 348 일반 거리 함수 ... 350 논의 사항 ... 350 6.6 지역적 선형 모델을 통한 수치 예측 ... 352 모델 트리 ... 353 트리 구축 ... 354 트리 가지치기 ... 354 명목 속성 ... 355 누락된 속성 값 ... 356 모델 트리를 유도하는 의사코드 ... 357 모델 트리로부터 유도된 규칙 ... 361 국부 가중 선형 회귀 기법 ... 362 논의 사항 ... 364 6.7 베이지언 네트워크 ... 364 예측 유도 ... 366 베이지안 네트워크 학습 ... 370 특화된 알고리즘 ... 373 빠른 학습을 위한 데이터 구조 ... 375 논의 사항 ... 378 6.8 군집화 ... 379 군집 수 선택 ... 380 계층적 군집화 ... 381 계층적 군집의 예제 ... 383 점진적 군집화 ... 386 카테고리 유틸리티 ... 392 확률 기반 군집화 ... 394 EM 알고리즘 ... 396 확장된 혼합 모델 ... 398 베이지안 군집화 ... 400 논의 사항 ... 402 6.9 반 감독 학습 ... 404 분류를 위한 군집화 ... 405 합동 훈련 ... 407 EM과 합동 훈련 알고리즘 ... 408 논의 사항 ... 409 6.10 다중 인스턴스 학습 ... 410 단일 인스턴스 학습 변환 ... 410 학습 알고리즘 개선 ... 413 정교한 다중 인스턴스 기법 ... 414 논의 사항 ... 415 6.11 웨카 구현 ... 416 7장 데이터 변환 ... 419 7.1 속성 선택 ... 421 스킴과 독립적인 선택 ... 423 속성 공간 검색 ... 426 스킴에 특화된 선택 ... 427 7.2 수치 속성 이산화 ... 430 감독되지 않은 이산화 기법 ... 432 엔트로피 기반 이산화 기법 ... 433 기타 이산화 기법 ... 437 엔트로피 기반 이산화 기법과 오류 기반 이산화 기법의 비교 ... 438 이산화 속성을 수치 속성으로 변환 ... 439 7.3 투영화 ... 440 주성분 분석(PCA) 알고리즘 ... 442 랜덤 투영 알고리즘 ... 445 편 최소 제곱 회귀 알고리즘 ... 445 텍스트를 속성 벡터로 변환 ... 447 시계열 ... 449 7.4 표본 추출 ... 450 저장식 표본 추출 ... 450 7.5 정화 알고리즘 ... 451 의사 결정 트리 구조 개선 ... 452 견고한 회귀법 ... 453 비정상 검출 ... 455 단일 클래스 학습 ... 456 7.6 다중 클래스를 이진 클래스로 변환 ... 459 간단한 알고리즘 ... 460 오류 정정 출력 코드 ... 461 중첩 이분법 앙상블 알고리즘 ... 464 7.7 클래스 확률 교정 ... 467 7.8 참고 문헌 ... 470 7.9 웨카 구현 ... 473 8장 앙상블 학습 알로리즘 ... 475 8.1 다중 모델 조합 ... 476 8.2 배깅 ... 477 바이어스-분산 분해 ... 478 비용과 연관된 배깅 ... 480 8.3 무작위 추출 ... 481 무작위 추출과 배깅 ... 482 로테이션 포레스트 앙상블 학습 기법 ... 483 8.4 부스팅 알고리즘 ... 484 아다부스트 ... 484 부스팅의 검증력 ... 487 8.5 가산 회귀 분석 ... 489 수치 예측 ... 490 가산 로지스틱 회귀 분석 ... 491 8.6 해석 가능한 앙상블 ... 493 옵션 트리 ... 493 로지스틱 모델 트리 ... 496 8.7 스태킹 ... 497 8.8 참고 문헌 ... 500 8.9 웨카 구현 ... 501 9장 계속되는 발전 : 현재와 미래 적용 범위 ... 503 9.1 <B><FONT color ... #0000 9.2 대용량 데이터 집합을 기반으로 한 학습 알고리즘 ... 507 9.3 데이터 스트림 학습 ... 510 9.4 전문 분야 지식의 통합 ... 514 9.5 텍스트 마이닝 ... 518 9.6 웹 마이닝 ... 522 9.7 적대적인 상황 ... 527 9.8 유비쿼터스 <B><FONT color ... #0000 9.9 참고 문헌 ... 534 Ⅲ부 웨카 <B><FONT color ... #0000 10장 웨카 입문 ... 539 10.1 웨카에 내장된 기능 ... 540 10.2 웨카의 사용법 ... 541 10.3 웨카의 기타 용도 ... 542 10.4 웨카의 다운로드 ... 543 11장 익스플로러 인터페이스 ... 545 11.1 웨카의 시작 ... 546 데이터 준비 ... 546 익스플로러로 데이터 로딩 ... 547 의사 결정 트리 구성 ... 549 출력 결과 검토 ... 550 다시 해보기 ... 552 모델을 통한 작업 ... 553 오류가 난 경우 ... 555 11.2 익스플로러 탐험 ... 556 파일 로딩과 필터링 ... 557 학습 스킴 훈련과 검증 ... 564 직접 만들어보기 : 사용자 분류기 ... 568 메타 학습기 사용 ... 571 군집화와 연관 규칙 ... 571 속성 선택 ... 573 시각화 ... 573 11.3 필터링 알고리즘 ... 575 비감독 속성 필터 ... 576 비감독 인스턴스 필터 ... 585 감독 필터 ... 587 11.4 학습 알고리즘 ... 591 베이지언 분류기 ... 594 트리 ... 598 규칙 ... 602 함수 ... 606 신경망 네트워크 ... 616 Lazy 분류기 ... 619 다중 인스턴스 분류기 ... 620 기타 분류기 ... 622 11.5 메타 학습 알고리즘 ... 622 배깅과 랜덤화 ... 624 부스팅 ... 625 분류기 조합 ... 626 비용 민감 학습 ... 627 최적화 성능 ... 627 다양한 작업을 처리하기 위한 분류기 목표 재설정 ... 629 11.6 군집 알고리즘 ... 629 11.7 연관 규칙 학습기 ... 636 11.8 속성 선택 ... 638 속성 종속 집합 평가기 ... 640 단일 속성 평가기 ... 641 검색 기법 ... 643 12장 지식 플로우 인터페이스 ... 647 12.1 시작하기 ... 647 12.2 컴포넌트 ... 650 12.3 컴포넌트 설정과 연동 ... 653 12.4 점증적 학습 ... 655 13장 Experimenter ... 659 13.1 시작하기 ... 659 실험 수행 ... 662 결과 분석 ... 662 13.2 간단 모드 설정 ... 664 13.3 고급 모드 설정 ... 665 13.4 Analyze 패널 ... 668 13.5 다중 머신을 대상으로 하는 분산 처리 기능 ... 670 14장 커맨드라인 인터페이스 ... 675 14.1 시작하기 ... 675 14.2 웨카의 구조 ... 676 클래스, 인스턴스, 패키지 ... 676 weka.core 패키지 ... 677 waka.classifiers 패키지 ... 680 기타 패키지 ... 682 Javadoc 인덱스 ... 683 14.3 커맨드라인 옵션 ... 684 일반 옵션 ... 685 특수 옵션 ... 687 15장 내장된 기계 학습 기능 ... 689 15.1 단순 <B><FONT color ... #0000 MessaeClassifer() ... 694 updateData() ... 695 classifyMessage() ... 696 16장 새로운 학습 스킴 개발 ... 699 16.1 예제 분류기 ... 700 buildClassfier() ... 700 makeTree() ... 708 computeInfoGain() ... 710 classifyInstance() ... 710 toSource() ... 711 main() ... 714 16.2 분류기를 구현할 때 지켜야 할 규약 ... 716 메모리 허용 용량 ... 717 17장 웨카 익스플로러를 위한 튜토리얼 예제 ... 719 17.1 익스플로러 인터페이스 시작 ... 719 데이터 로딩 ... 719 데이터 집합 편집기 ... 720 필터 적용 ... 721 Visualize 패널 ... 722 Classify 패널 ... 723 17.2 최근접 이웃 학습과 의사 결정 트리 ... 727 유리 데이터 집합 ... 728 속성 선택 ... 728 클래스 잡음과 최근접 이웃 학습 ... 730 훈련 데이터의 양 조절 ... 731 반복적 결정 트리 구성 ... 732 17.3 분류 경계 ... 734 1R 시각화 ... 734 최근접 이웃 학습 시각화 ... 735 단순 베이지언 분류 시각화 ... 736 결정 트리와 규칙 집합 시각화 ... 737 데이터 섞기 ... 737 17.4 전처리와 매개변수 튜닝 ... 738 이산화 ... 738 이산화에 대한 추가 사항 ... 739 자동 속성 선택 ... 740 자동 속성 선택에 관한 추가 사항 ... 741 자동 매개변수 튜닝 ... 742 17.5 문서 분류 ... 743 문자열 속성을 갖는 데이터 ... 744 실제 문서의 분류 ... 745 StringToWordVector 필터 연구 ... 747 17.6 연관 규칙의 마이닝 ... 748 연관 규칙 마이닝 ... 748 실제 <B><FONT color ... #0000 장바구니 분석 ... 751 부록 : 참고 문헌 ... 753 찾아보기 ... 785