제1부 BASIC 제1장 데이터 마이닝(Data Mining)의 소개 1.1 데이터 마이닝(Data Mining)의 소개 ... 1-1 1.2 클레멘타인(Clementine)을 이용한 데이터 마이닝 ... 1-2 1.3 데이터 마이닝을 하기 전에 ... 1-3 1.4 데이터 마이닝 문제를 처리하는 전략 ... 1-4 1.5 요약 ... 1-5 제2장 SPSS 클레멘타인(Clementine)의 소개 2.1 SPSS 클레멘타인(Clementine)의 소개 ... 2-1 2.2 클레멘타인(Clementine)의 시작 ... 2-1 2.3 마우스(mouse)의 사용 ... 2-4 2.4 비쥬얼 프로그래밍(Visual Programming) ... 2-4 노드의 추가 ... 2-5 노드의 이동 ... 2-5 노드의 편집 ... 2-5 노드의 이름 바꾸기 ... 2-6 노드의 복사 ... 2-7 노드의 삭제 ... 2-7 노드에 주석문 쓰기 ... 2-7 2.5 클레멘타인(clementine)에서 스트림 만들기 ... 2-8 2.6 요약 ... 2-10 제3장 데이터 파일(Data Files) 읽기 3.1 클레멘타인에서 데이터 읽기 ... 3-2 3.2 자유 형식의 ASCII 파일 데이터 읽기 ... 3-2 3.3 고정 형식의 ASCII 파일 데이터 읽기 ... 3-5 3.4 SPSS 데이터 파일 읽기 ... 3-8 3.5 클레멘타인에서 데이터 보기 ... 3-10 3.6 데이터의 필드(fields)에 type 지정하기 ... 3-13 3.7 각 필드(field)의 개별 특성 지정 ... 3-13 3.8 각 필드(field)의 역할 특성 지정 ... 3-19 3.9 요약 ... 3-19 제4장 자료의 초기 탐색(探索) 4.1 개요 ... 4-2 4.2 클레멘타인에서의 결측 값 ... 4-2 4.3 데이터의 Quality 노드 ... 4-5 4.4 데이터의 분포 ... 4-7 4.5 범주형 필드의 분포 탐색 ... 4-7 4.6 연속형 필드의 분포 탐색 ... 4-10 4.7 Histogram 노드 ... 4-11 4.8 Statistics 노드 ... 4-13 4.9 스트림의 저장 ... 4-15 4.10 요약 ... 4-16 제5장 데이터 처리 5.1 개요 ... 5-2 5.2 CLEM 언어 ... 5-2 5.3 레코드 처리와 Select 노드 ... 5-4 5.4 필드의 처리와 Filter 노드 ... 5-7 5.5 Derive 노드 ... 5-11 5.6 Derive 노드의 동시 실행 ... 5-14 5.7 처리 노드들의 자동 생성 ... 5-15 5.8 결측 값이 없는 데이터의 자동 선택 ... 5-16 5.9 필드의 자동 제거 ... 5-17 5.10 Derive 노드의 자동 생성 ... 5-18 5.11 요약 ... 5-20 제6장 데이터에서 관계성 찾기 6.1 개요 ... 6-2 6.2 범주형 데이터 사이에서 관계성 찾기 ... 6-2 6.3 2개의 범주형 필드 데이터와 Matrix 노드 ... 6-3 6.4 Web 노드 ... 6-6 6.5 2개의 연속형 필드의 관계 ... 6-11 6.6 Plot 노드 ... 6-14 6.7 히스토그램을 이용한 연속형과 범주형 필드의 혼합관계 ... 6-18 6.8 요약 ... 6-20 제7장 클레멘타인의 모형화 기법 7.1 개요 ... 7-1 7.2 신경망(Neural networks) ... 7-2 7.3 Rule Induction ... 7-4 7.4 Kohonen networks ... 7-5 7.5 연관성 분석(Association rules) ... 7-7 7.6 언제 어떤 방법을 이용할까?(Which technique, when?) ... 7-8 7.7 요약 ... 7-9 제8장 클레멘타인에서의 신경망 8.1 개요 ... 8-2 8.2 Train Net 노드 ... 8-2 8.3 Generated Models 팔레트 ... 8-7 8.4 모형의 정보 보기 ... 8-8 8.5 신경망의 이해 ... 8-10 8.6 예측 값을 포함한 데이터 테이블(Table) 만들기 ... 8-10 8.7 실제 값과 예측 값의 비교 ... 8-11 8.8 예측 값이 나온 이유에 대한 이해 ... 8-12 8.9 모형에 관한 요약 ... 8-16 8.10 요약 ... 8-16 제9장 Rule Induction 9.1 개요 ... 9-2 9.2 클레멘타인에서의 Rule Induction의 역사 ... 9-2 9.3 C5.O을 사용한 Rule Induction ... 9-3 9.4 모형의 결과 화면 ... 9-5 9.5 Ruleset의 생성과 결과 화면 ... 9-8 9.6 Rule의 이해와 정확도(accuracy)의 결정 ... 9-10 9.7 예측 값이 포함된 표 만들기 ... 9-11 9.8 실제 값에 대한 예측 값의 비교 ... 9-12 9.9 예측에 가장 중요한 요인의 이해 ... 9-13 9.10 요약 ... 9-13 제10장 Rule과 신경망의 조합 10.1 개요 ... 10-2 10.2 모형의 비교 ... 10-2 10.3 Analysis 노드 ... 10-4 10.4 신경망 이전의 Rule Induction 사용 ... 10-6 10.5 신경망 이후의 Rule Induction 사용 ... 10-7 10.6 요약 ... 10-1 제11장 Kohonen Networks 11.1 개요 ... 11-2 11.2 Kohonen Networks의 훈련 ... 11-2 11.3 Kohonen Networks의 이해 ... 11-7 11.4 각 군집의 구분용 필드 만들기 ... 11-9 11.5 중요 군집들에 대하여 알아보기 ... 11-1 11.6 Web 노드를 이용한 주요 군집들의 특성 파악과 이해 ... 11-1 11.7 다른 필드들을 이용한 군집의 특성 파악 ... 11-1 11.8 요약 ... 11-2 제12장 Association Rules(연관성 분석) 12.1 개요 ... 12-2 12.2 APRIORI 노드 ... 12-4 12.3 연관성의 사용 ... 12-8 12.4 요약 ... 12-1 제13장 데이터 마이닝 전략과 모형의 전개 13.1 개요 ... 13-1 13.2 데이터 마이닝 전략 ... 13-2 13.3 CRISP-DM ... 13-3 13.4 모형의 효율을 향상시키는 방안 ... 13-4 13.5 모형의 전개 ... 13-5 13.6 요약 ... 13-7 연습문제 자료설명 제2부 MANIPULATION 제1장 여러 Source로부터 데이터의 결합 1.1 개요 ... 1-2 1.2 데이터 파일의 결합을 위한 Append 노드의 사용 ... 1-3 1.3 데이터 파일의 결합을 위한 Merge 노드의 사용 ... 1-10 1.4 supernode ... 1-17 1.5 Supernode 만들기 ... 1-18 1.6 Supernode의 규칙 ... 1-18 1.7 Supernode의 편집 ... 1-19 1.8 Supernode의 사용으로 인한 장점 ... 1-20 1.9 요약 ... 1-20 제2장 표본 데이터의 추출 2.1 개요 ... 2-2 2.2 Distinct 노드를 이용하여 중복 데이터 제거하기 ... 2-2 2.3 Sample 노드를 이용한 표본 데이터 추출 ... 2-5 2.4 Select 노드를 이용하여 전체 데이터를 구분하는 방법 ... 2-9 2.5 클레멘타인에서 데이터의 Caching ... 2-13 2.6 요약 ... 2-16 제3장 결측 값의 처리 3.1 개요 ... 3-2 3.2 클레멘타인에서의 결측 값 ... 3-2 3.3 Type 노드를 사용하여 결측 값 찾기 ... 3-3 3.4 데이터의 상태 평가 ... 3-8 3.5 Quality 노드를 이용한 데이터의 상태 개선 ... 3-10 3.6 결측 값을 적절한 값으로 대체하기 ... 3-12 3.7 데이터의 공란과 범위를 벗어나는 값의 자동 체크 ... 3-15 3.8 결측 값의 처리에 대한 제언 ... 3-17 3.9 요약 ... 3-18 제4장 날짜(Dates)가 있는 데이터 4.1 개요 ... 4-2 4.2 클레멘타인에서 날짜 형태로 선언하기 ... 4-2 4.3 date 관련 함수를 이용한 변수(필드) 형식 지정 ... 4-6 4.4 날짜가 포함된 연산 ... 4-17 4.5 요약 ... 4-19 제5장 sequence 데이터를 이용한 작업 5.1 개요 ... 5-2 5.2 CLEM sequence 함수 ... 5-2 5.3 Derive 노드의 COUNT와 STATE 옵션 ... 5-7 5.4 History 노드를 사용한 sequence 데이터의 재구성 ... 5-12 5.5 요약 ... 5-16 제6장 파일 구조의 재조정 6.1 개요 ... 6-2 6.2 Aggregate 노드를 이용한 데이터의 요약 정리 ... 6-2 6.3 Set To Flag 노드를 이용한 데이터의 재조정 ... 6-9 6.4 요약 정리된 Set To Flag 노드 생성 필드와 다른 필드와의 결합 ... 6-14 6.5 요약 ... 6-15 부록 A : ODBC를 이용하여 데이터 읽기 A.1 개요 ... a-2 A.2 원데이터의 선언 ... a-2 A.3 ODBC 노드를 이용하여 데이터에 접근하기 ... a-6 A.4 요약 ... a-11 연습문제 자료설명