목차
▣ 01장: 1회 대회 살펴보기
1.1 대회 설명 
__1.1.1 왜 상품 카테고리를 분류하는가? 
 __1.1.2 대회 내용 설명 
__1.1.3 대회 참여 현황 
1.2 대회 평가 척도 
1.3 데이터셋 훑어보기 
__1.3.1 데이터셋 설명 
____카테고리 매핑 정보 
____train 데이터셋 
____dev 데이터셋 
____test 데이터셋 
__1.3.2 대회 데이터 탐색 
____train 데이터(train.chunk.01~09) 상품 수 
____상품 카테고리 분류 분포 
____상품명에 담긴 정보 
____사용 빈도가 높은 단어 
____이미지 피처 시각화 
____데이터 탐색 요약 
1.4 베이스라인 모델 실행 
__1.4.1 실행 코드 가져오기 
__1.4.2 필요 패키지 설치하기 
__1.4.3 대회 데이터 저장 
__1.4.4 학습 데이터와 평가 데이터 나누기 
__1.4.5 베이스라인 모델 학습하기 
__1.4.6 베이스라인 모델로 결과 생성하기 
__1.4.7 결과 데이터 채점하기 
__1.4.8 결과 제출하기 

▣ 02장: 쇼핑몰 상품 카테고리 분류 1등 솔루션 
2.1 접근 방법 
__2.1.1 문제 파악 
____상세 설명 탭 읽기 
____채점 탭 읽기 
__2.1.2 데이터 구성 확인 
__2.1.3 머신러닝 파이프라인 구현 
____데이터 전처리(Data Preprocessing) 
 ____학습(Training) 
 ____추론(Inference) 
 ____리더보드 제출 
____성능 개선 방법 
2.2 실행 환경 구축 
__2.2.1 아나콘다 설치하기 
____아나콘다 실행하기 
____작업 디렉터리 생성하기 
__2.2.2 파이토치 설치하기 
__2.2.3 git 설치하기 
__2.2.4 주피터 노트북 실행하기 
2.3 솔루션 코드 실행 
__2.3.1 실행 준비 
____솔루션 코드 다운로드 
____대회 데이터 다운로드 
____필요한 패키지 설치 
__2.3.2 데이터 전처리 
__2.3.3 학습 
____배치 사이즈(batch size), 워커(worker) 개수 등의 변경 
____기본 검증 방법 
____k-폴드 교차검증 
____5-폴드의 각 데이터 그룹 학습시키기 
__2.3.4 추론 
____k-폴드 평균 앙상블(k-fold average ensemble) 
 ____2.3.5 리더보드에 제출 
2.4 솔루션 코드 분석 
__2.4.1 데이터 전처리 
____데이터프레임으로 변환 
____피처 엔지니어링 
____전처리된 데이터를 저장 
____img_feat 데이터 전처리 및 저장 
__2.4.2 학습 
____모델 아키텍처 선정 및 구현 
____모델 학습 진행 
__2.4.3 추론 
____inference.py 

▣ 03장: 2회 대회 살펴보기
3.1 대회 설명 
__3.1.1 브런치의 글 추천은 어떻게 이루어지는가? 
 ____유사글 추천 모델 
____개인화 맞춤 추천 모델 
____추천할 만한 글을 찾는 타깃팅 조건 
____내가 좋아할 만한 글을 찾는 랭킹 과정 
__3.1.2 대회 내용 설명 
__3.1.3 대회 참여 현황 
3.2 대회 평가 척도 
3.3 데이터셋 훑어보기 
__3.3.1 데이터셋 설명 
____사용자가 본 글 정보 
____글의 메타데이터 
____글 본문 정보 
____사용자 정보 
____매거진 정보 
____예측할 사용자 정보 
__3.3.2 대회 데이터 탐색 
____브런치에 등록된 글 현황 
____브런치 글의 소비 데이터 현황 
____브런치 글의 등록일 이후 경과일에 따른 소비 현황 
____위클리 매거진의 주기성 
____신규 사용자 vs. 단골 사용자 
____사용자 구독 데이터 현황 
____데이터 탐색 요약 
3.4 베이스라인 추천 모델 실행 
__3.4.1 실행 코드 가져오기 
__3.4.2 필요 패키지 설치하기 
__3.4.3 학습 데이터와 평가 데이터 나누기 
__3.4.4 베이스라인 추천 모델로 결과 생성하기 
__3.4.5 추천 결과 채점하기 
__3.4.6 dev.users 사용자 결과 생성하기 
__3.4.7 결과 제출하기 

▣ 04장: 글 추천 1등 솔루션 따라하기
4.1 2회 대회의 문제 이해
__4.1.1 문제 개요 
____과거 기록의 기간과 예측할 소비의 기간 
____예측 대상 사용자와 글 
____성능 평가와 공개 리더보드
__4.1.2 성능 평가 지표 및 수상 기준
__4.1.3 브런치 서비스 이해 
____방문 이유와 유입 경로 
____세션 특성 
____서비스 이용 패턴 
__4.1.4 프로그래밍 언어 및 외부 라이브러리 
__4.1.5 예제 코드 확인하기 
4.2 2회 대회의 데이터 이해 
__4.2.1 글 조회 데이터 
____데이터 전처리 
____데이터 분석 
__4.2.2 글의 메타데이터 
__4.2.3 사용자 정보 
__4.2.4 매거진 정보 
__4.2.5 예측 대상 사용자 정보 
4.3 추천 시스템의 기술 이해 및 적용 검토 
__4.3.1 협업 필터링의 이해 
____이웃 기반 협업 필터링 
____세션 기반 협업 필터링 
__4.3.2 협업 필터링 적용 검토 
____Word2Vec 기반 추천 
____연속 조회 통계 기반 추천 
____세션 기반 협업 필터링 적용 기간 
__4.3.3 콘텐츠 기반 필터링의 이해 
__4.3.4 콘텐츠 기반 필터링 적용 검토 
__4.3.5 예외 상황 대응하기 
4.4 협업 필터링 구현 
__4.4.1 모델 생성 코드 살펴보기 
__4.4.2 예측 코드 살펴보기 
__4.4.3 성능 평가 
____협업 필터링 예측 결과 생성 
____협업 필터링 성능 평가 
____협업 필터링 튜닝 
4.5 콘텐츠 기반 필터링 구현 
__4.5.1 예측 코드 살펴보기 
__4.5.2 Doc2Vec 데이터 전처리 살펴보기 
__4.5.3 Doc2Vec 모델 생성 코드 살펴보기 
__4.5.4 성능 평가 
____콘텐츠 기반 필터링 예측 결과 생성 
____콘텐츠 기반 필터링 성능 평가 
4.6 앙상블 구현 
__4.6.1 예측 보조 함수 살펴보기 
__4.6.2 예측 추가 함수 살펴보기 
__4.6.3 메인 코드 예측 준비 부분 살펴보기 
__4.6.4 메인 코드 앙상블 부분 살펴보기 
__4.6.5 성능 평가 
4.7 최종 결과 제출하기 
__4.7.1 깃허브 저장소 만들기 
__4.7.2 깃허브 저장소에 코드 및 설명 올리기
닫기