들어가며 = ⅲ 이 책을 보는 방법 = ⅳ 개발환경 준비 = ⅴ ① 아나콘다(Anaconda) 배포판 설치 = ⅴ ② 스파이더(Spyder) 사용법 = xi ③ 필수 라이브러리 설치 = xiv PART 1 판다스 입문 ① 데이터과학자가 판다스를 배우는 이유 = 2 ② 판다스 자료구조 = 3 2-1 시리즈 = 4 2-2 데이터프레임 = 11 ③ 인덱스 활용 = 39 ④ 산술연산 = 46 4-1 시리즈 연산 = 46 4-2 데이터프레임 연산 = 52 PART 2 데이터 입출력 ① 외부 파일 읽어오기 = 58 1-1 CSV 파일 = 58 1-2 Excel 파일 = 62 1-3 JSON 파일 = 64 ② 웹(web)에서 가져오기 = 65 2-1 HTML 웹 페이지에서 표 속성 가져오기 = 65 2-2 웹 스크래핑 = 68 ③ API 활용하여 데이터 수집하기 = 70 ④ 데이터 저장하기 = 74 4-1 CSV 파일로 저장 = 74 4-2 JSON 파일로 저장 = 75 4-3 Excel 파일로 저장 = 77 4-4 여러 개의 데이터프레임을 하나의 Excel 파일로 저장 = 78 PART 3 데이터 살펴보기 ① 데이터프레임의 구조 = 84 1-1 데이터 내용 미리보기 = 84 1-2 데이터 요약 정보 확인하기 = 86 1-3 데이터 개수 확인 = 90 ② 통계 함수 적용 = 92 2-1 평균값 = 92 2-2 중간값 = 93 2-3 최대값 = 94 2-4 최소값 = 95 2-5 표준편차 = 96 2-6 상관계수 = 97 ③ 판다스 내장 그래프 도구 활용 = 98 선 그래프 = 99 막대 그래프 = 101 히스토그램 = 103 산점도 = 104 박스 플롯 = 105 PART 4 시각화 도구 ① Matplotlib - 기본 그래프 도구 = 108 1-1 선 그래프 = 108 1-2 면적 그래프 = 128 1-3 막대 그래프 = 132 1-4 히스토그램 = 136 1-5 산점도 = 138 1-6 파이 차트 = 141 1-7 박스 플롯 = 143 ② Seaborn 라이브러리 - 고급 그래프 도구 = 147 데이터셋 가져오기 = 147 회귀선이 있는 산점도 = 148 히스터그램/커널 밀도 그래프 = 149 히트맵 = 151 범주형 데이터의 산점도 = 152 막대 그래프 = 153 빈도 그래프 = 154 박스 플롯/바이올린 그래프 = 155 조인트 그래프 = 157 조건을 적용하여 화면을 그리드로 분할하기 = 159 이번수 데이터의 분포 = 160 ③ Folium 라이브러리 - 지도 활용 = 161 Folium 설치하기 = 161 지도 만들기 = 162 지도 스타일 적용하기 = 163 지도에 마커 표시하기 = 165 지도 영역에 단계구분도(Choropleth Map) 표시하기 = 167 PART 5 데이터 사전 처리 ① 누락 데이터 처리 = 172 누락 데이터 확인 = 172 누락 데이터 제거 = 176 누락 데이터 치환 = 178 ② 중복 데이터 처리 = 182 중복 데이터 확인 = 182 중복 데이터 제거 = 184 ③ 데이터 표준화 = 186 3-1 단위 환산 = 186 3-2 자료형 변환 = 188 ④ 범주형(카테고리) 데이터 처리 = 192 4-1 구간 분할 = 192 4-2 더미 변수 = 194 ⑤ 정규화 = 198 ⑥ 시계열 데이터 = 201 6-1 다른 자료형을 시계열 객체로 변환 = 201 6-2 시계열 데이터 만들기 = 206 6-3 시계열 데이터 활용 = 209 PART 6 데이터프레임의 다양한 응용 ① 함수 매핑 = 218 1-1 개별 원소에 함수 매핑 = 218 1-2 시리즈 객체에 함수 매핑 = 222 1-3 데이터프레임 객체에 함수 매핑 = 226 ② 열 재구성 = 229 2-1 열 순서 변경 = 229 2-2 열 분리 = 232 ③ 필터링 = 234 3-1 불린 인덱싱 = 234 3-2 isin() 메소드 활용 = 237 ④ 데이터프레임 합치기 = 239 4-1 데이터프레임 연결 = 239 4-2 데이터프레임 병합 = 245 4-3 데이터프레임 결합 = 251 ⑤ 그룹 연산 = 254 5-1 그룹 객체 만들기(분할 단계) = 254 5-2 그룹 연산 메소드(적용-결합 단계) = 261 ⑥ 멀티 인덱스 = 271 ⑦ 피벗 = 273 PART 7 머신러닝 데이터 분석 ① 머신러닝 개요 = 284 1-1 머신러닝이란? = 284 1-2 지도 학습 vs 비지도 학습 = 284 1-3 머신러닝 프로세스 = 285 ② 회귀분석 = 286 2-1 단순회귀분석 = 286 2-2 다항회귀분석 = 298 2-3 다중회귀분석 = 304 ③ 분류 = 308 3-1 KNN = 308 3-2 SVM = 319 3-3 Decision Tree = 323 ④ 군집 = 331 4-1 k-Means = 332 4-2 DBSCAN = 339 찾아보기 = 359