목차
▣ 01장: KBO 타자 OPS 예측 
1.1 문제 정의 
__1.1.1 경진대회 소개 
__1.1.2 평가척도 
__1.1.3 도메인 조사 
__1.1.4 문제 해결을 위한 접근 방식 소개 
__1.1.5 분석환경 구축 
1.2 탐색적 데이터 분석 
__1.2.1 프리시즌 데이터 분석 
__1.2.2 정규시즌 데이터 분석 
__1.2.3 일별 데이터 분석 
__1.2.4 탐색적 데이터 분석 요약 
1.3 데이터 전처리 
__1.3.1 결측치 처리 및 데이터 오류 처리 
__1.3.2 규정 타수 정의 
__1.3.3 시간변수 
____시간 반영 함수 정의와 변수 생성 
____변수 선택 & 시간 범위 
__1.3.4 추가 변수 생성 
__1.3.5 데이터 사후 처리 
__1.3.6 SLG 데이터 전처리 
1.4 모델 구축과 검증 
__1.4.1 데이터 분할 
__1.4.2 모델 선택 
____릿지와 라쏘 
____랜덤 포레스트 
____XGBoost(eXtra Gradient Boost) 
 ____알고리즘별 성능 비교 
__1.4.3 결과 해석 및 평가 
____랜덤 포레스트 
____라쏘와 릿지 회귀 모델 
1.5 성능 향상을 위한 방법 
__1.5.1 앙상블 
__1.5.2 단순화된 모델 생성 
__1.5.3 테스트 데이터 정제 
____OBP 
 ____SLG 
 __1.5.4 반발계수의 변화 
1.6 정리 

▣ 02장: 반도체 박막 두께 분석 
2.1 문제 정의 
__2.1.1 경진대회 소개 
__2.1.2 평가척도 
__2.1.3 문제 해결을 위한 접근 방식 
__2.1.4 분석환경 구축 
2.2 탐색적 데이터 분석 
__2.2.1 데이터 분석 및 통계 
____연속형, 수치형 데이터 
____데이터 기초 통계 
____데이터 시각화 
2.3 데이터 전처리 
__2.3.1 결측치 처리 
__2.3.2 데이터 파이프라인 
__2.3.3 커스텀 데이터 클래스 
2.4 모델 구축과 검증 
__2.4.1 모델 탐색 
____회귀 문제에 대한 머신러닝 모델 
____회귀 문제에 대한 신경망 모델 
__2.4.2 신경망 모델 구축 
____모델 소개 
____베이스라인 모델 및 대표 모델 
____모델 레이어 구성 살펴보기 
__2.4.3 모델 검증 
2.5 성능 향상을 위한 방법 
__2.5.1 정규화 기법 적용하기 
__2.5.2 추가 실험하기 
____옵티마이저 및 스케줄러 조정 
____하이퍼파라미터(배치 크기, 은닉층 노드 개수, 레이어 구성 조정) 
 __2.5.3 앙상블 
2.6 정리 

▣ 03장: 퇴근시간 버스 승차인원 예측 
3.1 문제 정의 
__3.1.1 경진대회 소개 
__3.1.2 평가척도 
__3.1.3 문제 해결을 위한 접근 방식 소개 
____주의할 점 
__3.1.4 분석환경 구축 
____데이콘 데이터 내려받기 
____깃허브에서 데이터 내려받기 
____라이브러리 설치 
3.2 탐색적 데이터 분석 
____데이터 경로 설정 
__3.2.1 데이터 설명 
____train.csv와 test.csv 
 ____bus_bts.csv 
 ____jeju_financial_life_data.csv 
 ____weather.csv 
 ____rain.csv 
 __3.2.2 데이터 시각화를 통한 탐색적 데이터 분석 
____타깃 변수 분포 확인하기 
____단일 변수에 따른 타깃 변수의 변화 
____요일에 따른 퇴근시간 평균 탑승객 수 
____버스 종류에 따른 탑승객 수 
____일별 출퇴근 시간 탑승객 수 
3.3 데이터 전처리 
__3.3.1 내부 데이터를 통한 변수 생성 
____탐색적 데이터 분석을 통한 변수 
____도메인 조사를 통한 변수 
____시간대를 활용한 변수 
____bus_bts를 활용한 변수 
____좌표를 활용한 변수 
__3.3.2 외부 데이터를 통한 변수 생성 
____날씨를 활용한 변수 
____jeju_financial_life_data를 활용한 변수 
__3.3.3 라벨 인코딩과 원핫 인코딩 변수 
____라벨 인코딩 변수 
____원핫 인코딩 변수 
__3.3.4 전체 변수 정리 
3.4 모델 구축과 검증 
__3.4.1 머신러닝 모델 
____배깅 방식 앙상블 모델 
____부스팅 방식 앙상블 모델 
__3.4.2 모델 검증 
____교차검증 
__3.4.3 변수 선택 
____최종 데이터 구축 
____그리드 탐색 
____임의탐색 
__3.4.5 최종 모델 구축 
____주 모델 선택 
____최종 모델 구축 
3.5 성능 향상을 위한 방법 
__3.5.1 submission 간 앙상블 
____결괏값 간 상관계수 확인 
____여러 가지 앙상블 기법 
3.6 정리 

▣ 04장: 상점 신용카드 매출 예측 
4.1 문제 정의 
__4.1.1 경진대회 소개 
__4.1.2 평가척도 
__4.1.3 대회 관련 사전 조사 
__4.1.4 문제 해결을 위한 접근 방식 소개 
____데이터 살펴보기 
____데이터의 노이즈 
____분석 방향 
__4.1.5 분석환경 구축 
____아나콘다 가상환경 구축 
____주피터 노트북 설치 
____rpy2(파이썬에서 R 객체 사용) 
 ____pmdarima(시계열 분석) 
 ____statsmodels(통계 분석) 
 ____seaborn, tqdm 패키지 설치 
____주피터 노트북에 가상환경 커널 추가하기 
4.2 데이터 전처리 
__4.2.1 노이즈 제거 
__4.2.2 다운 샘플링 
__4.2.3 날짜 지정 범위 생성과 시리즈 객체 변환 
4.3 탐색적 데이터 분석 
__4.3.1 상점별 매출 특성 
____계절성이 있는 상점 
____추세가 있는 상점 
____휴업 중인 상점 
__4.3.2 시계열 데이터의 정상성 
____ADF-Test 
 4.4 모델 구축과 검증 
__4.4.1 파이썬에서 R 시계열 패키지 forecast를 통한 모델링 
__4.4.2 시계열 모델 선택과 검증 
____자기회귀누적이동평균 모델 
____지수평활법 
____STL 분해를 적용한 지수평활법 
4.5 성능 향상을 위한 방법 
__4.5.1 상점 매출액의 로그 정규화 
__4.5.2 파이썬에서 R 시계열 패키지 forecastHybrid를 통한 앙상블 

▣ 05장: KBO 외국인 투수 스카우팅 최적화 
5.1 문제 정의 
__5.1.1 경진대회 소개 
__5.1.2 평가척도 
__5.1.3 도메인 조사 
__5.1.4 문제 해결을 위한 접근 방식 소개 
__5.1.5 분석환경 구축 
5.2 탐색적 데이터 분석 
__5.2.1 KBO/팬그래프 데이터에 기록된 야구 지표 분석 
__5.2.2 스탯캐스트 데이터에 기록된 야구 지표 분석 
5.3 데이터 전처리 
__5.3.1 가설을 확인하기 위한 투수 집단 선정하기 
__5.3.2 유효한 데이터 선정하기 
5.4 모델 구축과 검증 
__5.4.1 선형회귀분석 
__5.4.2 아웃 확률 추정하기 
5.5 성능 향상을 위한 방법 
__5.5.1 볼 배합 지표 
__5.5.2 배럴 타구 허용 비율 
5.6 정리 

▣ 06장: 부록
A.1 아나콘다 다운로드와 설치 
__A.1.1 아나콘다 다운로드 
__A.1.2 아나콘다 설치 
A.2 파이썬 패키지 확인과 추가 설치 
__A.2.1 아나콘다 프롬프트 실행 
__A.2.2 기본 설치된 패키지 확인 
__A.2.3 파이썬 패키지 추가 설치 
A.3 장별 실습에 필요한 패키지를 일괄 설치 
__A.3.1 requirements.txt를 사용해 패키지를 일괄 설치 
__A.3.2 environment.yml로 가상 환경을 구성하고 패키지를 일괄 설치 
A.4 주피터 노트북 
__A.4.1 주피터 노트북 시작 
__A.4.2 주피터 노트북 사용 
__A.4.3 주피터 노트북 종료
닫기