▣ 01장: KBO 타자 OPS 예측 1.1 문제 정의 __1.1.1 경진대회 소개 __1.1.2 평가척도 __1.1.3 도메인 조사 __1.1.4 문제 해결을 위한 접근 방식 소개 __1.1.5 분석환경 구축 1.2 탐색적 데이터 분석 __1.2.1 프리시즌 데이터 분석 __1.2.2 정규시즌 데이터 분석 __1.2.3 일별 데이터 분석 __1.2.4 탐색적 데이터 분석 요약 1.3 데이터 전처리 __1.3.1 결측치 처리 및 데이터 오류 처리 __1.3.2 규정 타수 정의 __1.3.3 시간변수 ____시간 반영 함수 정의와 변수 생성 ____변수 선택 & 시간 범위 __1.3.4 추가 변수 생성 __1.3.5 데이터 사후 처리 __1.3.6 SLG 데이터 전처리 1.4 모델 구축과 검증 __1.4.1 데이터 분할 __1.4.2 모델 선택 ____릿지와 라쏘 ____랜덤 포레스트 ____XGBoost(eXtra Gradient Boost) ____알고리즘별 성능 비교 __1.4.3 결과 해석 및 평가 ____랜덤 포레스트 ____라쏘와 릿지 회귀 모델 1.5 성능 향상을 위한 방법 __1.5.1 앙상블 __1.5.2 단순화된 모델 생성 __1.5.3 테스트 데이터 정제 ____OBP ____SLG __1.5.4 반발계수의 변화 1.6 정리
▣ 02장: 반도체 박막 두께 분석 2.1 문제 정의 __2.1.1 경진대회 소개 __2.1.2 평가척도 __2.1.3 문제 해결을 위한 접근 방식 __2.1.4 분석환경 구축 2.2 탐색적 데이터 분석 __2.2.1 데이터 분석 및 통계 ____연속형, 수치형 데이터 ____데이터 기초 통계 ____데이터 시각화 2.3 데이터 전처리 __2.3.1 결측치 처리 __2.3.2 데이터 파이프라인 __2.3.3 커스텀 데이터 클래스 2.4 모델 구축과 검증 __2.4.1 모델 탐색 ____회귀 문제에 대한 머신러닝 모델 ____회귀 문제에 대한 신경망 모델 __2.4.2 신경망 모델 구축 ____모델 소개 ____베이스라인 모델 및 대표 모델 ____모델 레이어 구성 살펴보기 __2.4.3 모델 검증 2.5 성능 향상을 위한 방법 __2.5.1 정규화 기법 적용하기 __2.5.2 추가 실험하기 ____옵티마이저 및 스케줄러 조정 ____하이퍼파라미터(배치 크기, 은닉층 노드 개수, 레이어 구성 조정) __2.5.3 앙상블 2.6 정리
▣ 03장: 퇴근시간 버스 승차인원 예측 3.1 문제 정의 __3.1.1 경진대회 소개 __3.1.2 평가척도 __3.1.3 문제 해결을 위한 접근 방식 소개 ____주의할 점 __3.1.4 분석환경 구축 ____데이콘 데이터 내려받기 ____깃허브에서 데이터 내려받기 ____라이브러리 설치 3.2 탐색적 데이터 분석 ____데이터 경로 설정 __3.2.1 데이터 설명 ____train.csv와 test.csv ____bus_bts.csv ____jeju_financial_life_data.csv ____weather.csv ____rain.csv __3.2.2 데이터 시각화를 통한 탐색적 데이터 분석 ____타깃 변수 분포 확인하기 ____단일 변수에 따른 타깃 변수의 변화 ____요일에 따른 퇴근시간 평균 탑승객 수 ____버스 종류에 따른 탑승객 수 ____일별 출퇴근 시간 탑승객 수 3.3 데이터 전처리 __3.3.1 내부 데이터를 통한 변수 생성 ____탐색적 데이터 분석을 통한 변수 ____도메인 조사를 통한 변수 ____시간대를 활용한 변수 ____bus_bts를 활용한 변수 ____좌표를 활용한 변수 __3.3.2 외부 데이터를 통한 변수 생성 ____날씨를 활용한 변수 ____jeju_financial_life_data를 활용한 변수 __3.3.3 라벨 인코딩과 원핫 인코딩 변수 ____라벨 인코딩 변수 ____원핫 인코딩 변수 __3.3.4 전체 변수 정리 3.4 모델 구축과 검증 __3.4.1 머신러닝 모델 ____배깅 방식 앙상블 모델 ____부스팅 방식 앙상블 모델 __3.4.2 모델 검증 ____교차검증 __3.4.3 변수 선택 ____최종 데이터 구축 ____그리드 탐색 ____임의탐색 __3.4.5 최종 모델 구축 ____주 모델 선택 ____최종 모델 구축 3.5 성능 향상을 위한 방법 __3.5.1 submission 간 앙상블 ____결괏값 간 상관계수 확인 ____여러 가지 앙상블 기법 3.6 정리
▣ 04장: 상점 신용카드 매출 예측 4.1 문제 정의 __4.1.1 경진대회 소개 __4.1.2 평가척도 __4.1.3 대회 관련 사전 조사 __4.1.4 문제 해결을 위한 접근 방식 소개 ____데이터 살펴보기 ____데이터의 노이즈 ____분석 방향 __4.1.5 분석환경 구축 ____아나콘다 가상환경 구축 ____주피터 노트북 설치 ____rpy2(파이썬에서 R 객체 사용) ____pmdarima(시계열 분석) ____statsmodels(통계 분석) ____seaborn, tqdm 패키지 설치 ____주피터 노트북에 가상환경 커널 추가하기 4.2 데이터 전처리 __4.2.1 노이즈 제거 __4.2.2 다운 샘플링 __4.2.3 날짜 지정 범위 생성과 시리즈 객체 변환 4.3 탐색적 데이터 분석 __4.3.1 상점별 매출 특성 ____계절성이 있는 상점 ____추세가 있는 상점 ____휴업 중인 상점 __4.3.2 시계열 데이터의 정상성 ____ADF-Test 4.4 모델 구축과 검증 __4.4.1 파이썬에서 R 시계열 패키지 forecast를 통한 모델링 __4.4.2 시계열 모델 선택과 검증 ____자기회귀누적이동평균 모델 ____지수평활법 ____STL 분해를 적용한 지수평활법 4.5 성능 향상을 위한 방법 __4.5.1 상점 매출액의 로그 정규화 __4.5.2 파이썬에서 R 시계열 패키지 forecastHybrid를 통한 앙상블
▣ 05장: KBO 외국인 투수 스카우팅 최적화 5.1 문제 정의 __5.1.1 경진대회 소개 __5.1.2 평가척도 __5.1.3 도메인 조사 __5.1.4 문제 해결을 위한 접근 방식 소개 __5.1.5 분석환경 구축 5.2 탐색적 데이터 분석 __5.2.1 KBO/팬그래프 데이터에 기록된 야구 지표 분석 __5.2.2 스탯캐스트 데이터에 기록된 야구 지표 분석 5.3 데이터 전처리 __5.3.1 가설을 확인하기 위한 투수 집단 선정하기 __5.3.2 유효한 데이터 선정하기 5.4 모델 구축과 검증 __5.4.1 선형회귀분석 __5.4.2 아웃 확률 추정하기 5.5 성능 향상을 위한 방법 __5.5.1 볼 배합 지표 __5.5.2 배럴 타구 허용 비율 5.6 정리
▣ 06장: 부록 A.1 아나콘다 다운로드와 설치 __A.1.1 아나콘다 다운로드 __A.1.2 아나콘다 설치 A.2 파이썬 패키지 확인과 추가 설치 __A.2.1 아나콘다 프롬프트 실행 __A.2.2 기본 설치된 패키지 확인 __A.2.3 파이썬 패키지 추가 설치 A.3 장별 실습에 필요한 패키지를 일괄 설치 __A.3.1 requirements.txt를 사용해 패키지를 일괄 설치 __A.3.2 environment.yml로 가상 환경을 구성하고 패키지를 일괄 설치 A.4 주피터 노트북 __A.4.1 주피터 노트북 시작 __A.4.2 주피터 노트북 사용 __A.4.3 주피터 노트북 종료