▣ 01장: 1회 대회 살펴보기 1.1 대회 설명 __1.1.1 왜 상품 카테고리를 분류하는가? __1.1.2 대회 내용 설명 __1.1.3 대회 참여 현황 1.2 대회 평가 척도 1.3 데이터셋 훑어보기 __1.3.1 데이터셋 설명 ____카테고리 매핑 정보 ____train 데이터셋 ____dev 데이터셋 ____test 데이터셋 __1.3.2 대회 데이터 탐색 ____train 데이터(train.chunk.01~09) 상품 수 ____상품 카테고리 분류 분포 ____상품명에 담긴 정보 ____사용 빈도가 높은 단어 ____이미지 피처 시각화 ____데이터 탐색 요약 1.4 베이스라인 모델 실행 __1.4.1 실행 코드 가져오기 __1.4.2 필요 패키지 설치하기 __1.4.3 대회 데이터 저장 __1.4.4 학습 데이터와 평가 데이터 나누기 __1.4.5 베이스라인 모델 학습하기 __1.4.6 베이스라인 모델로 결과 생성하기 __1.4.7 결과 데이터 채점하기 __1.4.8 결과 제출하기
▣ 02장: 쇼핑몰 상품 카테고리 분류 1등 솔루션 2.1 접근 방법 __2.1.1 문제 파악 ____상세 설명 탭 읽기 ____채점 탭 읽기 __2.1.2 데이터 구성 확인 __2.1.3 머신러닝 파이프라인 구현 ____데이터 전처리(Data Preprocessing) ____학습(Training) ____추론(Inference) ____리더보드 제출 ____성능 개선 방법 2.2 실행 환경 구축 __2.2.1 아나콘다 설치하기 ____아나콘다 실행하기 ____작업 디렉터리 생성하기 __2.2.2 파이토치 설치하기 __2.2.3 git 설치하기 __2.2.4 주피터 노트북 실행하기 2.3 솔루션 코드 실행 __2.3.1 실행 준비 ____솔루션 코드 다운로드 ____대회 데이터 다운로드 ____필요한 패키지 설치 __2.3.2 데이터 전처리 __2.3.3 학습 ____배치 사이즈(batch size), 워커(worker) 개수 등의 변경 ____기본 검증 방법 ____k-폴드 교차검증 ____5-폴드의 각 데이터 그룹 학습시키기 __2.3.4 추론 ____k-폴드 평균 앙상블(k-fold average ensemble) ____2.3.5 리더보드에 제출 2.4 솔루션 코드 분석 __2.4.1 데이터 전처리 ____데이터프레임으로 변환 ____피처 엔지니어링 ____전처리된 데이터를 저장 ____img_feat 데이터 전처리 및 저장 __2.4.2 학습 ____모델 아키텍처 선정 및 구현 ____모델 학습 진행 __2.4.3 추론 ____inference.py
▣ 03장: 2회 대회 살펴보기 3.1 대회 설명 __3.1.1 브런치의 글 추천은 어떻게 이루어지는가? ____유사글 추천 모델 ____개인화 맞춤 추천 모델 ____추천할 만한 글을 찾는 타깃팅 조건 ____내가 좋아할 만한 글을 찾는 랭킹 과정 __3.1.2 대회 내용 설명 __3.1.3 대회 참여 현황 3.2 대회 평가 척도 3.3 데이터셋 훑어보기 __3.3.1 데이터셋 설명 ____사용자가 본 글 정보 ____글의 메타데이터 ____글 본문 정보 ____사용자 정보 ____매거진 정보 ____예측할 사용자 정보 __3.3.2 대회 데이터 탐색 ____브런치에 등록된 글 현황 ____브런치 글의 소비 데이터 현황 ____브런치 글의 등록일 이후 경과일에 따른 소비 현황 ____위클리 매거진의 주기성 ____신규 사용자 vs. 단골 사용자 ____사용자 구독 데이터 현황 ____데이터 탐색 요약 3.4 베이스라인 추천 모델 실행 __3.4.1 실행 코드 가져오기 __3.4.2 필요 패키지 설치하기 __3.4.3 학습 데이터와 평가 데이터 나누기 __3.4.4 베이스라인 추천 모델로 결과 생성하기 __3.4.5 추천 결과 채점하기 __3.4.6 dev.users 사용자 결과 생성하기 __3.4.7 결과 제출하기
▣ 04장: 글 추천 1등 솔루션 따라하기 4.1 2회 대회의 문제 이해 __4.1.1 문제 개요 ____과거 기록의 기간과 예측할 소비의 기간 ____예측 대상 사용자와 글 ____성능 평가와 공개 리더보드 __4.1.2 성능 평가 지표 및 수상 기준 __4.1.3 브런치 서비스 이해 ____방문 이유와 유입 경로 ____세션 특성 ____서비스 이용 패턴 __4.1.4 프로그래밍 언어 및 외부 라이브러리 __4.1.5 예제 코드 확인하기 4.2 2회 대회의 데이터 이해 __4.2.1 글 조회 데이터 ____데이터 전처리 ____데이터 분석 __4.2.2 글의 메타데이터 __4.2.3 사용자 정보 __4.2.4 매거진 정보 __4.2.5 예측 대상 사용자 정보 4.3 추천 시스템의 기술 이해 및 적용 검토 __4.3.1 협업 필터링의 이해 ____이웃 기반 협업 필터링 ____세션 기반 협업 필터링 __4.3.2 협업 필터링 적용 검토 ____Word2Vec 기반 추천 ____연속 조회 통계 기반 추천 ____세션 기반 협업 필터링 적용 기간 __4.3.3 콘텐츠 기반 필터링의 이해 __4.3.4 콘텐츠 기반 필터링 적용 검토 __4.3.5 예외 상황 대응하기 4.4 협업 필터링 구현 __4.4.1 모델 생성 코드 살펴보기 __4.4.2 예측 코드 살펴보기 __4.4.3 성능 평가 ____협업 필터링 예측 결과 생성 ____협업 필터링 성능 평가 ____협업 필터링 튜닝 4.5 콘텐츠 기반 필터링 구현 __4.5.1 예측 코드 살펴보기 __4.5.2 Doc2Vec 데이터 전처리 살펴보기 __4.5.3 Doc2Vec 모델 생성 코드 살펴보기 __4.5.4 성능 평가 ____콘텐츠 기반 필터링 예측 결과 생성 ____콘텐츠 기반 필터링 성능 평가 4.6 앙상블 구현 __4.6.1 예측 보조 함수 살펴보기 __4.6.2 예측 추가 함수 살펴보기 __4.6.3 메인 코드 예측 준비 부분 살펴보기 __4.6.4 메인 코드 앙상블 부분 살펴보기 __4.6.5 성능 평가 4.7 최종 결과 제출하기 __4.7.1 깃허브 저장소 만들기 __4.7.2 깃허브 저장소에 코드 및 설명 올리기