목차
01부 데이터의 성질에 관한 기초지식
  1장 관측은 간단하지 않다
    1.1 데이터 관측 = 5
      대상에서 정보 추출 = 5
      쓰레기를 넣으면 쓰레기가 나온다 = 6
      데이터의 제약과 표본추출 = 7
    1.2 측정의 어려움 = 8
      필요한 데이터가 전부 수집되는 것은 당연하지 않다 = 8
      ''측정할 수 없는 것''을 측정할 때 = 8
      측정에 따른 정보의 누락 = 9
      관계가 있는 것처럼 보이는 지표를 혼용하지 않는다 = 10
      ''표준화''에 따른 정보의 누락 = 11
  2장 오차와 변동
    2.1 오차의 분해 = 14
      ''오차''란 = 14
      오차가 크면 정보가 사라진다 = 14
      우연오차와 편향 = 14
    2.2 오차와 확률분포 = 17
      데이터의 변동 파악 = 17
      배후에 있는 참 분포를 생각하자 = 18
      평균과 분산 = 19
    2.3 ''확률분포'' 정리 = 19
      수학적 확률과 통계적 확률 = 19
      확률분포와 확률밀도 = 21
      가장 중요한 확률분포 ''정규분포'' = 23
      확률변수를 서로 더하면 나타나는 정규분포 = 25
      경험분포와 이론분포 = 26
      오차의 분포와 데이터의 분포 = 26
    2.4 우연 오차의 변동 처리 = 28
      관측값의 평균값을 이용한 변동 억제 = 28
      통계적으로 평가한다 = 29
      관측수를 늘리는 효과 = 30
      편차가 작은 지표에 주목한다 = 30
  3장 데이터에 포함된 편향
    3.1 측정기준에 관한 편향 = 33
      일관된 측정기준 = 33
      일정한 기준의 어려움 = 33
      시간적으로 변하는 기준 = 34
    3.2 선택편향 = 36
      ''데이터가 수집되고 있다''라는 의미 = 36
      여러가지 선택편향 = 37
      우연 = 37
    3.3 관측 개입에 의한 편향 = 39
      ''질문''은 어렵다 = 39
      신뢰할 수 없는 대답 = 40
      나중에 이유 붙이기 = 42
      관측에 따른 개입의 영향 = 42
    3.4 데이터 취급에 따른 편향 = 43
      데이터를 왜곡시키는 동기 = 43
      유리한 데이터만 수집 = 43
      인위적인 실수 = 44
  4장 중첩요인과 인과관계
    4.1 두 변수 간의 관계 = 47
      변수의 상관관계 = 47
      변수 간의 인과관계란 = 48
      상관관계와 인과관계 = 48
      변수간의 관계성 정리 = 51
    4.2 중첩을 처리한다 = 53
      변수의 얽힘 = 53
      개입과 그 한계 = 54
      무작위 배정 임상시험(RCT) = 55
      관찰 데이터와 실험 데이터 = 55
    4.3 무작위 배정 임상시험을 할 수 없을 때 = 57
      다중회귀분석 = 57
      로지스틱 회귀 = 58
      회귀불연속설계 = 60
      성향점수 매칭 = 61
      상황에 따른 방법의 선택 = 62
  5장 데이터 표본추출 방법론
    5.1 표본추출 개념 = 65
      표본조사란 = 65
      일부 데이터로 전체를 안다 = 66
      표본크기 결정방법 = 67
    5.2 여러 가지 표본추출법 = 70
      무작위추출 = 70
      집락추출로 표본추출 비용을 낮춘다 = 71
      무작위가 아닌 추출법 = 72
      결과를 일반화할 수 있는가 = 73
    5.3 표본추출과 편향 = 74
      범위오차 = 74
      응답에 발생하는 편향 = 75
      대상 집단에 의한 선택편향 = 76
2부 데이터의 분석에 관한 기초지식
  6장 데이터 가공
    6.1 수집한 데이터 확인 = 83
      잘못된 데이터에 주의 = 83
      단위와 자릿수 = 84
      이상치 확인 = 85
      제거해도 괜찮은 이상치인가 = 87
    6.2 데이터의 분석ㆍ조작 = 89
      데이터 해석까지의 흐름 = 89
      각 처리에서 에러를 체크 = 90
      처리 코드를 통일한다 = 91
      분석 코드 관리 = 91
      소프트웨어 이용 = 92
    6.3 데이터의 보관ㆍ관리 = 94
      데이터의 보관 = 94
      보안관리 = 94
      개인정보 취급 = 95
      가명정보 활용 = 96
  7장 일변수 데이터
    7.1 기술통계량 = 98
      양적 변수와 범주형 변수 = 98
      대표적인 값을 계산한다 = 98
      산포를 표현하는 기술통계량 = 100
      기술통계량만으로 파악할 수 없다 = 102
    7.2 데이터의 분포를 생각하자 = 103
      분포를 보자 = 103
      목적에 맞는 가시화 = 105
      히스토그램의 함정 = 105
    7.3 이론분포와 연결짓는다 = 107
      이론분포를 생각하자 = 107
      꼬리가 두꺼운 분포 = 108
      누적분포함수로 경험분포와 이론분포를 비교 = 110
    7.4 시계열 데이터란 = 112
      동일한 양을 계속 관측한다 = 112
      주기성분 분리 = 113
      과거의 영향을 자기상관으로 본다 = 114
  8장 변수 간의 관계를 조사한다
    8.1 두 개의 양을 비교한다 = 118
      어느쪽이 큰가 = 118
      편차와 결과의 중요성 = 118
      가설검정의 개념 = 120
      가설검정 사용법 = 122
      t 검정을 이용한 두 그룹 비교 = 123
      대응 비교 = 125
    8.2 두 개의 양의 상관관계를 조사한다 = 127
      상관관계의 유무 = 127
      상관계수의 함정 = 128
      상관관계와 가설검정 = 130
      효과크기와 p 값의 해석 = 131
  9장 다변량 데이터 해석
    9.1 탐색적 분석과 다중검정 = 135
      쌍으로 놓고 생각하자 = 135
      다중 검정이란 = 136
      다중성을 보정하자 = 138
      새로운 데이터를 수집한다 = 140
    9.2 분산분석과 다중비교 = 142
      3개 이상의 비교 = 142
      여러개의 요인을 조사한다 = 143
      어디에 차이가 있는지 알고 싶은 경우 = 145
      분산분석과 다중비교 = 146
    9.3 상관관계 구조를 파헤친다 = 147
      편상관관계를 본다 = 147
      요인분석 = 148
      좀 더 복잡한 관계성 = 150
      주성분분석 = 151
      군집화 = 153
      계층적 군집화 = 154
    9.4 여러 가지 방법 정리 = 156
      설명하는 변수ㆍ설명되는 변수 = 156
      탐색적 분석을 하고 싶은 경우 = 156
      설명변수로서 영향을 보고 싶은 경우 = 157
  10장 수리 모델링
    10.1 수리 모델링은 무엇을 하고 있는가 = 161
      수리 모델이란 = 161
      가정에서 도출된 이론 = 163
      수리 모델의 타당성 = 164
    10.2 목적에 맞는 모델링 = 167
      이해지향적 모델링과 응용지향적 모델링 = 167
      이해지향형 모델링의 포인트 = 168
      응용지향형 모델링의 포인트 = 169
    10.3 모델을 이용한 ''예측'' = 171
      ''예측''이란 = 171
      예측하기 쉬운 문제, 어려운 문제 = 171
      데이터에서 크게 동떨어진 상황은 예측하기 어렵다 = 172
      선형과 비선형 = 174
      메커니즘의 이해와 예측 = 175
      데이터 부족과 이해지향형 모델링 = 177
      이해지향형 모델링과 설명력 = 178
3부 데이터의 해석과 활용에 관한 기초지식
  11장 데이터 분석의 함정
    11.1 데이터 가공의 함정 = 185
      실수와 비율 = 185
      심슨의 역설 = 186
      평균값의 동작 = 187
      극단적인 값이 섞여있는 데이터 = 188
      불필요한 제거 = 188
      그래프를 왜곡하지 않는다 = 190
    11.2 확보한 데이터에 의한 함정 = 192
      다른 시점에서 데이터를 수집한다 = 192
      질적 데이터가 중요한 경우도 = 193
    11.3 분석 목적에 관련된 함정 = 195
      결론이 없는 결론 = 195
      목적에 따른 결과의 영향력 = 196
      오류의 허용도 = 196
      모델을 지나치게 신뢰한다 = 197
      목적에 맞는 분석 디자인 = 198
  12장 데이터 해석의 함정
    12.1 분석결과의 신뢰성 = 202
      재현성의 문제 = 202
      같은 데이터에서 같은 결론이 나온다고 할 수 없다 = 202
      데이터의 재현성 = 204
      HARKing과 p-hacking = 204
      힐의 기준 = 207
    12.2 해석할 때 생기는 인지편향 = 210
      인간은 마음대로 패턴을 만든다 = 210
      시간과 인과의 함정 = 212
      확률을 파악하는 것은 어렵다 = 214
      실제 확률과 가용성 편향 = 214
      확증편향 = 215
      문맥의 효과 = 216
      잘못된 데이터 해석의 예 = 218
  13장 데이터 활용의 함정
    13.1 목적에 근거한 평가ㆍ의사결정 = 223
      상황이나 목적에 따라 기본적인 방침이 다르다 = 223
      언제나 예측을 할 수 있는것은 아니다 = 224
      수리 모델은 블랙박스인가 = 225
    13.2 데이터의 수집과 활용 = 228
      전처리 비용을 낮춘다 = 228
      데이터 수집계획 = 228
      데이터를 수집하는 부담을 생각하자 = 229
    13.3 실제 세계와 데이터 분석 = 230
      데이터에 의한 관리주의 = 230
      조작된 평가 지표 = 231
      AI에 의한 차별 조장 = 232
      피드백이 있는 시스템 구축 = 233
닫기