2장. 지도 학습의 개요 __2.1 소개 __2.2 변수 타입과 용어 __2.3 예측을 위한 단순한 두 접근법: 최소 제곱과 최근접이웃 ____2.3.1 선형 모델과 최소 제곱42 ____2.3.2 최근접이웃 방법 ____2.3.3 최소제곱에서 최근접이웃까지 __2.4 통계적 결정 이론 __2.5 고차원에서의 국소적 방법 __2.6 통계적 모델, 지도 학습 및 함수 근사60 ____2.6.1 결합분포 Pr(X, Y )를 위한 통계적 모델 ____2.6.2 지도 학습 ____2.6.3 함수 근사 __2.7 구조화된 회귀 모델 ____2.7.1 문제의 어려움 __2.8 제한된 추정량의 종류 ____2.8.1 조도 벌점과 베이즈 방법 ____2.8.2 커널법과 국소 회귀 ____2.8.3 기저함수와 딕셔너리 방법 __2.9 모델 선택과 편향 - 분산 상반관계 __참고문헌 __연습 문제
3장. 회귀를 위한 선형법 __3.1 소개 __3.2 선형회귀 모델과 최소제곱 ____3.2.1 예제: 전립선암 ____3.2.2 가우스-마코프 정리 ____3.2.3 단순 일변량 회귀로부터의 다중회귀 ____3.2.4 다중 출력 __3.3 부분집합 선택 ____3.3.1 최량 부분집합 선택 ____3.3.2 전진 및 후진 스텝별 선택 ____3.3.3 전진 - 스테이지별 회귀 ____3.3.4 전립선암 데이터 예제(계속) __3.4 수축법 ____3.4.1 릿지회귀 ____3.4.2 라쏘 ____3.4.3 논의: 부분집합 선택, 릿지회귀 그리고 라쏘 ____3.4.4 최소각회귀 __3.5 유도된 입력 방향을 사용하는 방법들 ____3.5.1 주성분회귀 ____3.5.2 부분최소제곱 __3.6 논의: 선택법과 수축법 비교 __3.7 다중 결과 수축 및 선택 __3.8 라쏘 및 관련된 경로 알고리즘에 관한 추가 내용 ____3.8.1 증가적 전진 스테이지별 회귀 ____3.8.2 조각별 - 선형 경로 알고리즘 ____3.8.3 댄치그 선택자 ____3.8.4 그룹화 라쏘 ____3.8.5 라쏘의 추가적인 속성 ____3.8.6 경로별 좌표 최적화 __3.9 연산적 고려 사항 __참고문헌 __연습 문제
4장. 분류를 위한 선형법 __4.1 소개 __4.2 지시행렬의 선형회귀 __4.3 선형판별분석 ____4.3.1 정칙판별분석 ____4.3.2 LDA를 위한 연산 ____4.3.3 축소된 랭크 선형판별분석 __4.4 로지스틱회귀 ____4.4.1 로지스틱회귀 모델 적합 ____4.4.2 예제: 남아프리카인 심장병 ____4.4.3 이차근사 및 추론 ____4.4.4 L1 정칙화 로지스틱회귀 ____4.4.5 로지스틱회귀 아니면 LDA? __4.5 분리초평면 ____4.5.1 로젠블랫의 퍼셉트론 학습 알고리즘 ____4.5.2 최적 분리초평면 __참고문헌 __연습 문제
5장. 기저전개와 정칙화 __5.1 소개 __5.2 조각별 다항식과 스플라인 ____5.2.1 자연 삼차 스플라인 ____5.2.2 예제: 남아프리카 심장 질환(계속) ____5.2.3 예제: 음소 인식 __5.3 필터링과 특성 추출 __5.4 평활 스플라인 ____5.4.1 자유도와 평활자 행렬 __5.5 평활화 매개변수의 자동적 선택 ____5.5.1 자유도 고정하기 ____5.5.2 편향 - 분산 상반관계 __5.6 비모수적 로지스틱회귀 __5.7 다차원 스플라인 __5.8 정칙화 및 재생 커널 힐베르트 공간 ____5.8.1 커널에 의해 생성된 함수의 공간 ____5.8.2 RKHS 예시 __5.9 웨이블릿 평활화 ____5.9.1 웨이블릿 기저와 웨이블릿 변환 ____5.9.2 적응적 웨이블릿 필터링 __참고문헌 __연습 문제 __부록: 스플라인 연산 ____B - 스플라인 ____평활 스플라인의 연산
6장. 커널 평활법 __6.1 1차원 커널 평활자 ____6.1.1 국소 선형회귀 ____6.1.2 국소 다항회귀 __6.2 커널의 너비 선택하기 __6.3 Rp에서의 국소 회귀 __6.4 Rp에서의 구조적 국소 회귀 모델 ____6.4.1 구조화 커널 ____6.4.2 구조화 회귀함수 __6.5 국소 가능도 및 다른 모델 __6.6 커널 밀도 추정 및 분류 ____6.6.1 커널 밀도 추정 ____6.6.2 커널 밀도 분류 ____6.6.3 단순 베이즈 분류기 __6.7 방사기저함수와 커널 __6.8 밀도 추정과 분류를 위한 혼합 모델 __6.9 연산 고려 사항 __참고문헌 __연습 문제
7장. 모델 평가 및 선택 __7.1 소개 __7.2 편향, 분산, 모델 복잡도 __7.3 편향-분산 분해 ____7.3.1 예제: 편향 - 분산 상반관계 __7.4 훈련 오류율에 관한 낙관도 __7.5 표본-내 예측오차의 추정값 __7.6 매개변수의 유효 개수 __7.7 베이즈 접근법과 BIC __7.8 최소 설명 길이 __7.9 밥닉-체브넨키스 차원 ____7.9.1 예제(계속) __7.10 교차 검증 ____7.10.1 K-겹 교차 검증 ____7.10.2 교차 검증을 하는 잘못된 그리고 옳은 방법 ____7.10.3 교차 검증은 정말로 작동하는가? __7.11 부트스트랩법 ____7.11.1 예제(계속) __7.12 조건부 혹은 기대 테스트 오차 __참고문헌 __연습 문제
8장. 모델 추론과 평균화 __8.1 소개 __8.2 부트스트랩과 최대가능도 방법 ____8.2.1 평활화 예제 ____8.2.2 최대가능도 추정 ____8.2.3 부트스트랩 대 최대가능도 __8.3 베이즈 방법 __8.4 부트스트랩과 베이즈 추정 사이의 관계 __8.5 EM 알고리즘 ____8.5.1 2 - 성분 혼합모델 ____8.5.2 일반적인 EM 알고리즘 ____8.5.3 최대화 - 최대화 과정으로써의 EM __8.6 사후분포로부터 표본 추출을 위한 MCMC __8.7 배깅 ____8.7.1 예제: 시뮬레이션 데이터로 된 트리 __8.8 모델 평균화와 스태킹 __8.9 확률적 검색: 범핑 __참고문헌 __연습 문제
9장. 가법 모델, 트리 및 관련 방법들 __9.1 일반화 가법 모델 ____9.1.1 가법 모델 적합시키기 ____9.1.2 예제: 가법 로지스틱회귀 ____9.1.3 요약 __9.2 트리 기반 방법 ____9.2.1 배경 ____9.2.2 회귀 트리 ____9.2.3 분류 트리 ____9.2.4 다른 문제들 ____9.2.5 스팸 예제(계속) __9.3 PRIM: 범프 헌팅 ____9.3.1 스팸 예제(계속) __9.4 MARS: 다변량 적응적 회귀 스플라인 ____9.4.1 스팸 데이터(계속) ____9.4.2 예제(시뮬레이션된 데이터) ____9.4.3 다른 문제들 __9.5 전문가 계층 혼합 __9.6 결측 데이터 __9.7 연산 고려 사항 __참고문헌 __연습 문제
10장. 부스팅과 가법 트리 __10.1 부스팅법 ____10.1.1 개요 __10.2 부스팅 적합과 가법 모델 __10.3 전진 스테이지별 가법 모델링 __10.4 지수손실과 에이다 부스트 __10.5 왜 지수손실인가? __10.6 손실함수와 로버스트성 __10.7 데이터 마이닝을 위한 "기성품" 같은 과정 __10.8 예제: 스팸 데이터 __10.9 부스팅 트리 __10.10 경사 부스팅을 통한 수치적 최적화 ____10.10.1 최급하강 ____10.10.2 경사 부스팅 ____10.10.3 경사 부스팅의 구현 __10.11 부스팅을 위한 적절한 크기의 트리 __10.12 정칙화 ____10.12.1 수축 ____10.12.2 부표집 __10.13 해석 ____10.13.1 예측변수의 상대 중요도 ____10.13.2 부분 의존도 도표 __10.14 삽화 ____10.14.1 캘리포니아 주택 ____10.14.2 뉴질랜드 물고기 ____10.14.3 인구통계 데이터 __참고문헌 __연습 문제
11장. 신경망 __11.1 소개 __11.2 사영추적 회귀 __11.3 신경망 __11.4 신경망 적합시키기 __11.5 신경망을 훈련시킬 때의 문제 ____11.5.1 시작값 ____11.5.2 과적합 ____11.5.3 입력변수의 척도화 ____11.5.4. 은닉 유닛과 층의 개수 ____11.5.5 복수의 최솟값들 __11.6 예제: 시뮬레이션 데이터 __11.7 예제: 우편번호 데이터 __11.8 논의 __11.9 베이즈 신경망과 NIPS 2003 챌린지 ____11.9.1 베이즈, 부스팅, 배깅 ____11.9.2 성능 비교 __11.10 연산 고려 사항 __참고문헌 __연습 문제
12장. 서포트벡터머신과 유연한 판별식 __12.1 도입 __12.2 서포트벡터분류기 ____12.2.1 서포트벡터분류기 연산하기 ____12.2.2 혼합 예제(계속) __12.3 서포트벡터머신과 커널 ____12.3.1 분류를 위한 SVM 연산 ____12.3.2 벌점화 방법으로서의 SVM ____12.3.3 함수 추정과 재생커널 ____12.3.4 SVM과 차원성의 저주 ____12.3.5 SVM 분류기를 위한 경로 알고리즘 ____12.3.6 회귀를 위한 서포트벡터머신 ____12.3.7 회귀와 커널 ____12.3.8 논의 __12.4 선형판별분석 일반화 __12.5 유연한 판별분석 ____12.5.1 FDA 추정값 계산하기 __12.6 벌점화 판별분석 __12.7 혼합판별분석 ____12.7.1 예제: 파형 데이터 __12.8 연산 고려 사항 __참고문헌 __연습 문제
13장. 프로토타입 방법과 최근접이웃법 __13.1 개요 __13.2 프로토타입법 ____13.2.1 K- 평균 군집화 ____13.2.2 학습 벡터 양자화 ____13.2.3 가우스 혼합 __13.3 K-최근접이웃 분류기 ____13.3.1 예제: 비교 연구 ____13.3.2 예제: K - 최근접이웃과 이미지 장면 분류 ____13.3.3 불변 계량과 탄젠트 거리 __13.4 적응적 최근접이웃법 ____13.4.1 예제 ____13.4.2 최근접이웃을 위한 전역 차원 축소 __13.5 연산 고려 사항 __참고문헌 __연습 문제
14장. 비지도 학습 __14.1 개요 __14.2 연관성 규칙 ____14.2.1 시장 바스켓 분석 ____14.2.2 아프리오리 알고리즘 ____14.2.3 예제: 시장 바스켓 분석 ____14.2.4 지도 학습 같은 비지도 ____14.2.5 일반화 연관성 규칙 ____14.2.6 지도 학습법의 선택 ____14.2.7 예제: 시장 바스켓 분석(계속) __14.3 군집분석 ____14.3.1 근접도 행렬 ____14.3.2 속성에 근거한 비유사도 ____14.3.3 개체 비유사도 ____14.3.4 군집화 알고리즘 ____14.3.5 조합적 알고리즘 ____14.3.6 K - 평균 ____14.3.7 K - 평균 연군집화로서의 가우스 혼합 ____14.3.8 예제: 인간 종양 미세 배열 데이터 ____14.3.9 벡터 양자화 ____14.3.10 K- 중위점 ____14.3.11 실제적인 문제 ____14.3.12 계층적 군집화 __14.4 자기 조직화 맵 __14.5 주성분, 주곡선과 주표면 ____14.5.1 주성분 ____14.5.2 주곡선과 주표면 ____14.5.3 스펙트럼 군집화 ____14.5.4 커널 주성분 ____14.5.5 희박 주성분 __14.6 비음수행렬 분해 ____14.6.1 원형분석 __14.7 독립성분분석과 탐색적 사영추적 ____14.7.1 잠재변수와 인자분석 ____14.7.2 독립성분분석 ____14.7.3 탐색적 사영추적 ____14.7.4 ICA의 직접적 접근법 __14.8 다차원 척도화 __14.9 비선형 차원 축소와 국소 다차원 척도화 __14.10 구글 페이지랭크 알고리즘 __참고문헌 __연습 문제
15장. 랜덤포레스트 __15.1 개요 __15.2 랜덤포레스트의 정의 __15.3 랜덤포레스트의 세부 사항 ____15.3.1 아웃오브백 표본 ____15.3.2 변수 중요도 ____15.3.3 근접도 도표 ____15.3.4 랜덤포레스트와 과적합 __15.4 랜덤포레스트의 분석 ____15.4.1 분산 및 역상관 효과 ____15.4.2 편향 ____15.4.3 적응적 최근접이웃 __참고문헌 __연습 문제
16장. 앙상블 학습 __16.1 개요 __16.2 부스팅과 정칙화 경로 ____16.2.1 벌점화 회귀 ____16.2.2 "희박성 베팅" 원칙 ____16.2.3 정칙화 경로, 과적합 그리고 마진 __16.3 학습 앙상블 ____16.3.1 좋은 앙상블 학습하기 ____16.3.2 규칙 앙상블 __참고문헌 __연습 문제
17장. 무향 그래프 모델 __17.1 개요 __17.2 마코프 그래프 및 이들의 속성 __17.3 연속형 변수를 위한 무향 그래프 모델 ____17.3.1 그래프 구조가 알려져 있을 때 매개변수의 추정 ____17.3.2 그래프 구조의 추정 __17.4 이산변수를 위한 무향 그래프 모델 ____17.4.1 그래프 구조가 알려져 있을 때 매개변수의 추정 ____17.4.2 은닉 노드 ____17.4.3 그래프 구조의 추정 ____17.4.4 제약된 볼츠만 머신 __참고문헌 __연습 문제
18장. 고차원 문제: p≪N __18.1 p가 N보다 훨씬 클 때 __18.2 대각 선형판별분석과 최근접 수축 중심점 __18.3 이차 정칙화 선형 분류기 ____18.3.1 정칙판별분석 ____18.3.2 이차 정칙화로 된 로지스틱회귀 ____18.3.3 서포트벡터분류기 ____18.3.4 특성 선택 ____18.3.5 p ≫ N일 때 연산적인 지름길 __18.4 L1 정칙화 선형 분류기 ____18.4.1 단백질 질량 분광분석의 라쏘 적용 ____18.4.2 함수형 데이터를 위한 퓨즈화 라쏘 __18.5 특성을 쓸 수 없을 때의 분류 ____18.5.1 예제: 문자열 커널과 단백질 분류 ____18.5.2 내적 커널과 쌍별 거리를 사용하는 분류 및 다른 ____18.5.3 예제: 초록 분류 __18.6 고차원 회귀: 지도 주성분 ____18.6.1 잠재변수 모델링과의 연결성 ____18.6.2 부분최소제곱과의 관계 ____18.6.3 특성 선택을 위한 전제조건화 __18.7 특성 평가와 다중검정 문제 ____18.7.1 오발견율 ____18.7.2 비대칭 절단점과 SAM 과정 ____18.7.3 FDR의 베이즈적 해석 __18.8 참고문헌 __연습 문제