What a Beautiful Data!

[책] 통계 101 x 데이터 분석 요약 , 통계 개괄 스터디

by darami

이 글은 책 '통계 101 x 데이터 분석 , 아베 마사토 저, 프리렉' 을 데이터 분석가 입장에서 요약하고 정리/변형한 글입니다. 🙏🏻

* 왼쪽 최상단 사이드바를 누르시면 글의 목차, 이동 기능을 이용하실 수 있습니다.
 
예상 독자

  • 통계학의 전체적 흐름을 훑고 싶으신 분
  • 많이 들어본 이름들이지만 정확히 어떤 의미인지 대략적인 정의를 알고 싶으신 분 
  • 현업에서 어떻게 통계를 사용할 지 인사이트를 얻고 싶은 분 
  • 이 책을 읽고 다시 공부할 글쓴이 자신 (유력) 

 

1장. 통계학이란?

데이터 분석의 목적

 
1) 데이터를 요약하는 것
2) 대상을 설명하는 것
3) 새로 얻을 데이터를 예측하는 것
 

통계학의 전체 모습

 
1) 기술 통계 : 수집한 데이터를 정리하고 요약
2) 추론 통계 : 수집한 데이터로부터 데이터의 발생원을 추정

 (1) 통계적 추론 방법 : 데이터에서 가정한 확률 모형의 성질을 추정하는 방법   
 (2) 가설검정 방법 : 세운 가설과 얻은 데이터가 얼마나 들어맞는지 평가, 가설을 채택할 것인가를 판단하는 방법  

 

2장. 모집단과 표본

 

모집단의 크기 : 모집단에 포함된 요소의 수

  • 유한 모집단
    • 모집단 중 한정된 요소만 포함하는 것
      • 예시 : 2020년 기준 한국인 약 5000만명
  • 무한 모집단
    • 모집단 중 포함된 요소가 무한한 것
      • 예시 : 신약 효과의 예, 미래에 고혈압으로 약을 복용할 사람도 포함되기 때문에 요소는 무제한

 

모집단의 성질

  • 전수 조사
    • 모집단의 성질을 아는 유일한 방법
    • 모집단에 포함된 모든 요소를 조사하는 것
    • 유한 모집단일 때 선택할 수 있음
    • 데이터 분석 방법 : 기술 통계
      • 획득한 데이터의 특징을 기술하고 요약하는 것만으로 모집단의 성질을 설명하고 이해할 수 있음
    • 어려움 : 하지만 전수 조사에는 보통 막대한 비용이 들어감으로 어려움
  • 표본 조사
    • 모집단의 일부를 분석하여 모집단 전체의 성질을 추정하는 방법
      • 전수 조사의 어려움으로 인해 필요해짐
      • 표본(sample) : 추론통계에서 조사하는 모집단의 일부
      • 표본추출(sampling) : 모집단에서 표본을 뽑는 것
    • 표본의 크기와 표본의 수
      • 표본의 크기 : 표본에 포함된 요소의 개수
        • 보통 n으로 나타냄 (n=30)
        • 예시 : 표본으로 30개 추출
      • 표본의 개수 = 샘플 수
        • 20명으로 이루어진 표본 A, 30명으로 이루어진 표본 B -> 샘플 수 2개

 

3장. 통계분석의 기초

 

데이터의 유형

변수

  • 공통의 측정 방법으로 얻은 같은 성질의 값
  • 변수의 개수는 '차원'이라고 표현되기도 함
    • 양적 변수 (수치형 변수)
      • 숫자로 나타낼 수 있는 변수
        • 이산형
        • 연속형
    • 질적 변수 (범주형 변수)

 

통계량

  • 대푯값 (representative value)
    • 대략적인 분포의 위치
      • 평균값 (mean)
        • 표본평균 등
      • 중앙값 (median)
        • 크기 순으로 값을 정렬했을 때 한가운데 위치한 값
        • 수치 자체의 정보가 아닌 순서에만 주목하기 때문에 아웃라이어의 영향을 받지 않는다는 특징이 있음
      • 최빈값 (mode)
        • 데이터 중 가장 자주 나타나는 값
      • 좌우 대칭이 봉우리 형태 라면 평균값, 중앙값, 최빈값은 대체로 일치
        • 좌우 비대칭이라면 일치하지 않음
    • 한계
      • 대푯값만으로 데이터를 이해하는 것은 경계해야 함
        • 예시) 분포가 봉우리 형태가 아인 경우, 평균값을 계산하면 실제 데이터에서 멀리 동떨어진 값을 얻을 수 있음
      • 때문에 히스토그램을 그려 대략적인 데이터 파악 후 데이터 분석을 해야 함
  • 분산과 표준편차
    • '데이터의 퍼짐'을 평가
      • 분산(variance)
      • 표준편차(standard deviation, S.D.)
    • 표본에서 구한다는 점 강조
      • 표본분산 (sample variance)
        • 표본의 각 값과 표본평균이 어느 정도 떨어져 있는지를 평가함
        • 각 값과 평균값 사이 거리의 제곱을 평균화한 값으로 데이터의 퍼짐 정도를 평가함
          • 모든 값이 같다면 0
          • 데이터 퍼짐 정도가 크면 s^2이 커짐
      • 표본표준편차(sample standard deviation)
        • s, 표본 분산의 제곱근을 취한 값
        • 원래 값 단위와 일치하여 감각적으로 알기 더 쉽게 느껴짐

표본분산

  • 이상값
    • 평균값에서 표준편차의 2배 또는 3배 이상 벗어난 숫자를 보통 이상값으로 봄
  • 표준화 (standardizing, normalizing)
    • 평균과의 거리가 표준편차의 몇 배인가를 나타냄

표준화

  • 왜도와 첨도
    • 기댓값과 분산 이외에도 확률분포를 특징짓는 값
      • 왜도(skewness)
        • 분포가 좌우대칭에서 어느 정도 벗어났는지
      • 첨도(kurtosis)
        • 분포가 얼마나 뾰족한지, 그래프의 꼬리가 차지하는 비율

 

4장. 추론통계~신뢰구간

 

데이터를 얻는다는 것

  • 무작위추출(random sampling)
    • 단순무작위추출법
      • 난수를 이용하여 표본을 정함, 노력과 시간 비용이 들 때가 있음
    • 층화추출법
      • 실제로 자주 사용함
      • 모집단을 몇 개의 층으로 미리 나눈 뒤, 각 층에서 필요한 수의 조사 대상을 무작위로 추출하는 법
    • 그 외
      • 계통추출법, 군집추출법 등
  • 정말로 알고 싶은 것 : 모집단

 

표본오차와 신뢰구간

  • 표본오차(sampling error)
    • 모집단 평균 u와 (정말로 알고 싶은 것) 표본평균(실제로 손안에 있는 데이터)에는 어긋남(오차)이 생기는 것
      • 대수의 법칙
    • 중심극한정리 (central limit theorem, CLT)
      • 모집단이 어떤 분포이든 간에, 표본크기 n이 커질수록 표본평균의 분포는 정규분포로 근사할 수 있다는 것
        • 표준 편차 (standard deviation, SD)
          • 모집단의 표준편차는 (시그마)로, 표본의 표준편차는 (s)로 나타낸다.
  • 추정량
    • 모집단의 성질을 추정하는 데 사용하는 통계량
  • 신뢰구간
    • oo% 신뢰구간 mean "oo%의 확률로 이 구간에 모집단평균 u가 있다.
      • t 분포
        • 표본크기 n이 작아도 적용 가능하려면, '정규분표에서 얻은 데이터'라는 가정이 필요함
        • 표본 크기 n이 이 크면 clt에 따라서 모집단이 정규분포가 아니더라도 표본평균을 정규분포로 근사할 수 있음으로 신뢰구간은 정확해짐

 

5장. 가설검정

 

가설검정의 원리

  • 가설 검정
    • 실험군(treatment group)
    • 대조군(control group)
    • p값
      • 귀무가설이 옳다고 가정했을 때 관찰한 값 이상으로 극단적인 값이 나올 확률
      • p값이 0.05 이하인 경우, 귀무가설 하에서 현실 데이터는 나타나기 어렵다고 생각하고 귀무가설을 기각, 대립가설을 채택
        • 통계적으로 유의미한 차이가 있다.  제1종 오류와 제2종 오류
  • 제1종 오류
    • 귀무가설이 옳으나 귀무가설 기각, false positive
    • 제1종 오류가 일어날 확률 : a
    • 예시) 실제로는 아무런 차이가 없음에도 차이가 있다고 판단해 버리는 잘못
      • 유의 수준 a의 값을 미리 정해둠으로 확률을 통제할 수 있음
  • 제2종 오류
    • 대립가설이 옳음에도 귀무가설을 기각하지 않음, false negative
    • 제2종 오류가 일어날 확률 : B
      • 제2종 오류가 일어나지 않는 확률 (차이가 있을 때 차이가 있다고 올바르게 판단할 확률) : 검정력
        • 1-B
          • 일반적으로 80%로 설정
          • B는 a와 달리 직접 통제할 수 없음
  • a와 B는 상충관계에 있음  
  • 7장. 상관과 회귀

 

상관관계

  • 피어슨 상관계수
    • -1 ~ +1까지의 실수값
    • 주의할 점
      • 상관계수 r은 2개 양적 변수의 선형 관계성 강도를 정량화한 것, 비선형 관계는 r로 적절하게 정량화할 수 없음
      • r은 강도를 정량화하기에, 직선의 기울기 크기는 관계가 없다.
      • 데이터로 상관계수를 계산하기 전에 산점도를 그려 데이터가 어떻게 분포하는지를 미리 확인해야 함
        • 상관계수가 같은 데이터는 비선형을 포함해 다양한 형태가 있음으로
      • r은 평균이나 분산에 기반한 모수적인 방법, x나 y의 분포 모두 정규 분포라고 가정
        • 이상값이 있을 때는 적절하지 않음
          • 정규성을 샤피로-윌크 검정 등으로 확인한 후 정규성이 한쪽에 조금이라도 없다면 비모수 상관계수를 이용하는 것이 좋음
  • 비모수 상관계수
    • 데이터의 x축, y축 중 적어도 하나 이상에 정규성이 없을 때, 비모수 상관계수인 스피어만 순위 상관계수가 권장
    • -1 ~ +1까지의 실수값
    • 이상값이 있을 때도 사용할 수 있음
    • 주의할 점
      • 상관관계 계산 시 2개 변수가 처음부터 종속 관계이면 주의가 필요
        • x와 y축의 값이 개별 변수일 것, 그리고 나눗셈 등으로 변환하지 않았을 것을 사전에 확인

 

선형회귀

상관과 달리 회귀에는 설명변수 x와 반응변수 y라는 비대칭성이 있음

  • 단순 회귀의 예시
    • f(x)가 1차 함수, y= a + bx
      • f(x)의 형태를 결정하는 파라미터 a,b를 회귀계수 (regression coefficient)라고 함

회귀모형 (regression model)
y = a + bx + 𝜖

  • 𝜖 : 모집단에 대한 확률 오차
  • x : 설명변수
  • y : 설명변수 x에 대한 반응변수의 실현값
  • 최소제곱법 (least squares)
    • a 와 b를 정하기 위해서 모형의 '좋음'을 판단하는 기준이 있어야 함
      • 데이터에 가능한 한 들어맞는 회귀모형이 좋은 모형이라고 생각할 수 있음
        • 가능한 한 들어맞는 : '데이터와 회귀식의 차이가 가능한 한 작은' 이 될 수 있음
    • 데이터와 모형 차이의 제곱을 모두 더한 값 E를 최소화하는 방법

 

8장. 통계 모형화

 

선형회귀 원리의 확장

실제 데이터 해석에서는 설명변수가 여러개인 경우, 반응변수가 양적 변수가 아니라 예/아니요 같은 범주형 변수일 때도 있음으로 회귀 모형이 항상 적절하지는 않음

  • 확장 방향성
    • 설명변수의 개수를 늘리거나 유형 변경하기
    • 반응변수의 유형 변경하기
    • 회귀모형의 형태 변경하기
  • 다중회귀
    • 설명변수가 여러 개인 것
    • 단순 회귀 : 설명 변수가 1개인 것  

 

고차원 데이터 문제

  • 차원의 저주
    • 차원이 늘어날수록 파라미터 추정에 필요한 데이터 양이 폭발적으로 증가함
      • 차원이 증가할수록 다중공선성 문제가 일어나기 쉬우며 추정 정밀도가 떨어짐
        • 차원 축소 등의 방법이 있음
  • 다중공선성
    • 설명변수가 여러 개인 다중회귀에서 설명변수 사이에 강한 상관이 있는 경우
      • 회귀 계수의 추정오차가 커지는 문제가 발생할 가능성이 있음
      • 추정값의 신뢰성이 떨어짐
    • 다중공선성이 강할 때
      • 서로 상관이 있는 2개 변수 중 하나를 없앰
      • 주성분분석 등의 차원 축소 방법을 이용하여 설명변수의 개수를 줄임
  • 푸아송 회귀
    • 데이터가 음수가 되지 않는 정수일 때, 특히 반응변수가 개수인 경우 고려해 볼 수 있는 일반화선형모형     9장. 가설검정의 주의점

 

9장. 가설검정의 주의점

 
가설 검정의 이치를 제대로 이해하지 않아도, '선행 연구를 모방하여 가설 검정을 시행, P <0.05를 얻기만 하면 그만'이라 여기는 사용자가 많다는 것이 실정
이러한 실정으로 인해 재현성의 위기가 일어남  

 

재현성

  • 재현성 위기
    • 과학에서의 재현성(reproducibility, replication)
      • 누가 언제 어디서 실험하더라도, 조건이 동일하다면 동일한 결과를 얻을 수 있어야 한다는 것
        • 예시) 신약 효과나 부작용 조사 실험의 재현성
    • 최근 논문으로 발표된 내용을 다른 연구자가 동일한 방법과 조건으로 추시했을 때 같은 결과를 얻지 못하고 있다는 보고가 잇따르고 있음
  • 재현 불가능한 원인 (낮은 재현성)
    • 실험 조건을 동일하게 조성하기 어려움
    • 가설검정의 사용 방법을 조작할 수 있음
      • p-해킹 (p-hacking)
        • 의도치 않게 저지를 수 있음  

 

가설검정의 문제점

  • p값의 정의
    • '귀무가설이 옳다고 가정할 때 실제 관찰한 데이터 이상으로 극단적인 값을 얻을 확률'
      • 이 값이 작으면 귀무가설과 관찰한 데이터 사이에 괴리가 크다는 것을 의미, 유의 수준 a를 밑도는 때에는 귀무사설을 기각
  • 왜 a=0.05를 사용하는가?
    • 딱히 근거는 없음, 관례처럼 사용됨
      • 때문에 귀무가설이 옳은데 기각할 가능성을 줄이기 위해서 a를 더 줄일 수 있지만 그러면 B가 커져 버리는 문제가 있음
  • 피셔류 검정과 네이만-피어슨류 검정
    • 피셔류 검정
      • 귀무가설이 옳을 때 관찰한 데이터 이상으로 극단적인 값을 얻을 확률인 p값을 계산
      • 귀무가설과 관찰한 값의 괴리 정도를 평가
      • 가설을 기각한다는 개념 X , p값의 크기에 따라 증거의 강력함을 평가
    • 네이만-피어슨류 검정
      • 대립가설 설정, 제1종 오류, 제2종 오류를 고려하는 현대 가설검증의 흐름을 만듦
      • p값이 유의 수준 a 미만인가 이상인가에만 주목, 가설 기각/채택이라는 결론 내림
      • 미리 검출하고자 하는 효과크기를 정하고, 설정한 a와 B에 따라 필요한 표본크기 n을 결정해야 함
        • 표본크기 n이 크면 아주 약간의 차이라도 귀무가설을 기각하기 때문
      • 실제 현대 가설 검정에서는 p감ㅅ이 0.05보다 큰지 작은지가 아닌, p 값 자체를 기재하거나 * 기호룰 붙일 것을 권장  

 

효과크기

  • 효과크기(effect size)
    • p값으로 귀무가설이 옳다고 생각하기 어렵고, 평균값에 얼마나 차이가 있는지 말해주지 않음
    • 얼마만큼의 효과가 있는지를 나태는 것
      • Cohen's d
        • 2개의 모집단평균이 얼마나 떨어져 있는지를 나타냄
      • 상관계수, 결정계수 등 다양한 효과크기 적용 가능
      • p값과 함께 검정 방법에 따라 다양한 효과 크기를 함께 나타내는 것이 주류

 

베이즈 인수

  • 베이즈 인수의 특징과 주의점
    • p값 문제에서 귀무가설과 대립가설 간 비대칭성 문제는 베이즈 인수에 해당하지 않음
    • 두 가설의 상대적인 비교일 뿐, 사후 예측 점검을 수행할 필요가 있음
    • 파라미터의 사전분포에 영향을 받음
    • 주변 가능도를 구할 때는 모형으로 설정한 파라미터로 평균화하기 위한 적분 계산이 필요함

 

p-해킹

  • p-해킹
    • 의도하든 의도하지 않든, p값을 원하는 방향으로 조작하는 행위
    • 수치 고치는 것 x , p값이 0.05 미만이 되도록 실험을 설계하거나 해석하는 것
    • 재현성의 저하로 이어짐
      • 결과를 보며 표본크기(n)를 늘려서는 안 됨
      • 마음에 드는 해석만 보고해서는 안 됨
        • HARking
          • 'Hypothesis After the Results are Known'의 약자
          • 데이터를 얻어 결과를 보고 나서 가설을 만드는 행위
          • 재현성의 저하로 이어짐   
  • p-해킹을 예방하기 위한 노력들
    • 가설검증형 연구와 탐색형 연구
      • 가설검증형 연구
        • 가설을 세우고 이를 검증하는 연구
          • 이 연구에 따라 올바르게 가설검증을 사용하는 것이 이상적
      • 탐색형 연구
        • 전체를 탐색적으로 해석하는 연구
          • 탐색형 연구밖에 할 수 없는 상황이라면 실험이나 해석에 사용한 변수를 모두 보고, 검정을 반복한 횟수로 유의 수준 a를 나누는 본페로니 교정으로 이를 보정해야 함
          • 검정의 다중성을 놓치기 쉬움
            • 사전 등록
            • 연구를 실시하기 전에 가설과 실험 설계, 분석 방법 등의 연구 계획을 등록하는 것
        • 등록한 내용에 따라 연구를 진행함으로 데이터를 얻은 다음 가설을 세우는 HARKing을 막을 수 있음
          • p값 관련 문제 정리
          • p값을 제대로 이해하고 사용한다
      • 가설검증을 반복하면 다중성 문제가 발생하고, 위양성이 증가한다는 것을 이해한다.
      • 탐색형 연구와 가설검증형 연구의 차이를 이해한다.
      • 실시한 실험이나 해석은 제대로 보고한다.
      • 재현성이 있는지 염두에 둔다. 가능하다면 재실험하여 확인한다.
      • 좋은 가설을 세운다.

 

10장. 인과와 상관

 

인과관계와 상관관계

  • 인과관계
    • 원인과 결과의 관계
      • 원인 -> 결과라는 방향성이 특징
  • 상관관계
    • 데이터에서 보이는 관련성 (association)
      • 일반적, 어떤 특정한 조합이 일어나기 쉽다
      • 수학적, 확률변수 사이가 독립이 아니라는 뜻
      • 상관계수는 두 양적 데이터의 관련성을 수치화한 것, 상관관계는 데이터 유형을 따르지 않는 넓은 개념
  • 인과와 상관의 차이
    • 중첩요인(중첩변수, confounder)
      • 두 변수에 관련된 외부변수가 존재할 때, 이를 중첩이라 하고, 그 변수를 중첩변수/요인이라고 함
        • 예시) 아침밥과 성적의 관계에 제3의 변수인 가정환경이라는 요인이 있을 수 있다.
      • 이러한 중첩 요인 데이터도 수집해 분석에 사용하는 것이 중요하다.
        • 중첩요인을 고려함으로써, 알고자 하는 변수의 인과효과크기를 평가할 수 있다.
  • 인과-상관-허위상관
    • 허위상관(spurious correlation)
      • 인과관계는 없지만 상관관계는 있을 때, 인과관계가 있는 것처럼 보이는 상관이라는 뜻
    • 인과관계가 있어도 상관관계가 없을 수 있음
      • 중첩요인 or 합류점 편향이 있을 때
      • X -> Y -> Z 라는 중간 변수가 있을 때
      • 선형이 아닌 상관일 때
  • 인과관계를 알면 할 수 있는 일
    • '개입'이 가능해짐
      • 원인 변수를 변화시킴으로써(개입) , 결과 변수를 바꿀 수 있음
  • 상관관계를 알면 할 수 있는 일
    • 한쪽 변수로부터 또 다른 변수를 '예측'할 수 있음

 

인과관계와 상관관계의 다양한 사례

  • 시간과 나이는 중첩요인이 되기 쉬움
  • 우연히 생긴 상관
    • 수많은 변수를 마구잡이로 해석하면 통계적으로 유의미한 결과를 얻을 수도 있다는 문제
    • p-해킹 이나 HARKing과 비슷함

 

무작위 통제 실험

  • 무작위 통제 실험 (randomized control trial , RCT)
    • 변수 X에서 변수 Y로의 인과효과를 추정하는 가장 강력한 방법 
      • 알고자 하는 요인인 변수 X에 표본을 무작위로 할당하고 개입 실험을 수행한 다음, 변수 Y와 비교하는 방법 
      • 비즈니스 분야에서는 'AB 테스트'라고 부름
    • 왜 인과효과를 추정하는 강력한 방법일까
      • 중첩요인을 확인하지 않더라도, 그 효과를 무작위를 이용하여 무효화할 수 있으므로, 알고자 하는 변수의 효과만 추정 가능
  • 통계학에서의 인과관계
    • 2개의 변수 X와 Y가 있을 때 아래와 같다면  
      • X=0 , 글쓴이가 영양제를 3개월간 먹지 않음 (개입 없음)
        • Y(0) :글쓴이가 영양제를 3개월간 먹지 않았을 때의 건강 상태 
      • X=1 , 글쓴이가 영양제를 3개월간 먹음 (개입 있음)
        •  Y(1) : 글쓴이가 영양제를 3개월간 먹었을 때의 건강 상태 
      • t (인과효과, 개입 효과) = Y(1)-Y(0) 
        • 글쓴이가 영양제를 3개월간 먹었을 때의 건강 상태 -글쓴이가 영양제를 3개월간 먹지 않았을 때의 건강 상태 
        • 현실에서는 개인의 세계 양쪽을 관찰할 수 없기 때문에 이것은 불가능함 
        • --> 인과추론의 근본 문제 
    • 무작위 통제 실험의 이론적 배경 
      • 개인 수준이 아닌 집단 수준을 생각하여 인과의 평균적인 효과를 고려할 수 있음 
      • t (인과의 평균적인 효과)= E[ Y(1) - Y(0) ] = E[Y(1)] - E[Y(O)] 
        •  E[ ] : 모집단의 기댓값 
        • 이 경우에도 영양제를 먹었을 때와 안 먹었을 때 두 개 모두를 관찰할 수 없고, 영양제를 먹는 집단에 할당된 사람의 건강 상태와 영양제를 안 먹는 집단에 할당된 사람의 건강 상태 간 기댓값 차이를 알 수 밖에 없음. 
        • 때문에 여러 과정을 거쳐 피험자를 무작위 할당하고, 반년 후 t 검정 등으로 건강 상태를 비교하면 인과 효과를 비교할 수 있음 
    • 선택 편향 
      • 중첩요인의 존재가 선택편향을 발생시켰기 때문에 인과관계를 밝혀 내기가 어려웠음 
        • 무작위 할당이 아닌 경우에, 영양제를 먹는 사람과 영양제를 안먹는 사람에서 잠재적인 건강 상태의 차이를 발견할 수 있음
          • 예시) 애초에 영양제를 꾸준히 먹는 사람들은 건강 상태 증진에 대한 의욕적이라고 할 수 있음 

 

통계적 인과 추론 

무작위 통제 실험이 어려울 때, 통계적 인과 추론을 사용함  
 

  • 다중회귀 
    • 중첩요인을 측정해 모형에 도입하는 것이 중요
    • 조정 : 중첩 요인을 포함 
    • 인과 그래프를 그리고, backdoor기준에 따라 모형 투입 여부를 결정하는 것이 바람직함
  • 층별 해석 
    • 중첩요인을 기준으로 데이터를 몇 가지 그룹(층)으로 나누어, 각 층 안에서 중첩요인의 효과를 가능한 한 작게 하는 법 
  • 경향 점수 짝짓기 
    • 짝짓기(matching) 
      • 원인변수=0 인 집단과 원인변수=1인 집단에서 비슷한 중첩요인을 가진 데이터를 골라 쌍으로 만드는 방법 
        • 중첩요인 값이 비슷한 데이터를 짝지으면 중첩요인 효과를 없애고 무작위 통제 실험과 비슷한 효과를 얻을 수 있음 
          •  경향 점수 짝짓기(Propensity Score Matching, PSM)
            • 경향 점수라는 1차원 값을 기준으로 쌍을 고르는 방법으로 자수 사용됨 
            • 순서
              • 반응 변수를 원인 변수 (0 또는 1)로 하고, 중첩 요인을 설명변수로 한 로지스틱 회귀를 실행
              • 이에 따라 어떤 중첩 요인을 원인변수=1에 할당할 것인가를 평가
              • 고른 쌍으로 반응변수의 차이를 계산, 그 평균값을 취해 효과 추정량으로 삼음 
  • 이중차분법 (Difference In Differences, DID)
    • 시간 축을 도입, 집단 간 차이에 대해 다시 한번 처리 전후의 차분을 취함으로써 인과효과를 추정

 

11장. 베이즈 통계

 

베이즈 통계의 사고방식

  • 통계학의 2가지 흐름
    • 빈도주의 통계 
      • 지금까지 다룬 다양한 통계 방법 
    • 베이즈 통계
      • 조금 다른 사고방식에 기초, 중요성이 더욱 커질 것으로 보임 (컴퓨팅)
  • 불확실성 다루기
    • 빈도주의에서 
      • 불확실성
        • 모집단에서 표본을 추출할 때의 불확실성 
      • 확률
        • 무한히 반복 실행한 결과로써의 객관적인 빈도를 나타냄
    • 베이즈 통계에서 
      • 불확실성
        • 모집단 분포 모형화 : 분석자가 파라미터 𝜃를 어느 정도 알고 있는지를 확률 분포로 나타냄
        • 데이터 x를 얻어 𝜃에 대한 정보를 알아내면, 𝜃의 불확실성이 줄어둘고 𝜃의 확률 분포가 달라지는 모습을 보임  
      • 확률
        • '얼마나 확신하는지'로 해석하는 원리  베이즈 통계의 사고방식 
  •  베이즈 통계의 사고방식
    • 베이즈 통계에서는 통계 모형의 파라미터 𝜃를 확률변수로 취급하여, 그 확률 분포를 생각함 
      • 사전분포 p(𝜃)를 마련해 두고, 이를 이용하여 사후분포 p(𝜃lx)를 구하는 것이 베이즈 통계에서의 추정 
        • 사전분포 p(𝜃) (prior distribution) 
          • 분석자가 데이터를 알기 전 단계의 𝜃 확률 분포
        • 사후분포 p(𝜃lx) (posterior distribution)
          • 사전분포를 이용하여 데이터를 안 후의 파라미터 𝜃의 확률분포

 

베이즈 통계 알고리즘 

  • MCMC (Markov Chain Monte Carlo method) 방법 
    • 사후분포를 직접 계산하기 어렵기 때문에 사용하는 계산 알고리즘 
    • 특정 확률분포를 따르는 난수 발생 알고리즘 
    • 베이즈 통계에서는 이것을 이용하여 사후분포를 따르는 난수를 발생시키고, 난수의 집합을 관찰함으로써 사후분포의 성질을 분석함  
  • 몬테카를로 방법 
    • 난수를 여러 개 발생시켜 시뮬레이션해 근사해를 얻는 방법 
    • MCMC 방법이라는 명칭에 포함됨 
  • 마르코프 연쇄 
    • 어떤 상태에서 다른 상태로 변화하는 현상을 확률로 표현한 모형의 일종 

 

12장. 통계분석과 관련된 그 밖의 방법 

 

주성분분석 

  • 변수의 차원 
    • 차원 축소 (dimenstion reduction)
      • 데이터의 특징을 유지하면서 분석이나 결과 해석에 도움을 줄 수 있도록 변수의 수를 줄이는 것 
    • 변수의 수를 줄이는 이유 
      • 통계 분석에서 변수의 수가 많으면 일어나기 쉬운 다양한 문제들
        • 고차원 데이터 해석의 어려움 
          • 차원을 축소해 2개의 합성 변수로 변환 가능하다면, 2차원 평면에 플롯 그림으로 시각화할 수 있어 해석이 쉬워짐 
        • 다중회귀분석에서는 설명변수끼리 강한 상관이 있는 상황을 다중공선성이 있다고 하며, 회귀 계수 추정이 불안정해지는 문제가 발생함 
          • 상관이 있는 변수가 없어지도록 차원축소한 뒤 다중 회귀분석을 수행해야 다중공선성 문제를 피할 수 있음
        • 차원의 저주 
          • 표본크기 n이 충분하지 않은 상황이라면, 회귀계수를 올바르게 추정할 수 없는 문제가 생김 
  • 주성분분석 (PCA, Principal Component Analysis)
    • 차원 축소에 사용하는 가장 기본적인 방법 
    • 상관이 있는 변수끼리는 하나로 정리될 수 있다는 아이디어에 기반을 둠 
    • 새로운 축을 설정하고, 그 축 위의 값으로 데이터를 새롭게 바라봄 
      • 새로운 축 : 데이터 퍼짐이 가장 커지는 방향으로 설정 
        • PC1 (제1주성분)
          • 가장 새로운 축
        • PC2
          • 두번째 축
            • PC1과 수직 방향이고 데이터 퍼짐이 가장 커지는 방향으로 설정함 
        • 기여율
          • 각 주성분이 가진 정보(분산)의 비율
        • 누적기여율
          • '제1부터 제k주성분까지 전체 정보의 몇%가 포함되는지'
    • 주성분분석 결과
      • PC2 이후는 그때까지 얻은 주성분과 직교하도록 설정 
      • 주성분들이 구해지면, 각 주성분의 기여율과 누적기여율을 확인
      • 각 주성분의 값과 원래 각 변수의 상관관계를 계산 
        • 이를 주성분부하량 또는 인자부하량이라 함 
      • 원래 데이터를 새로운 변수를 이용하여 표로 나타냄
        • 이를 주성분 점수라 함 

 

비지도 학습

정답 데이터가 없으며, 데이터의 배후에 있는 구조를 올바르게 추출하려는 목적으로 사용됨 
 

  • 군집분석 (cluster analysis)
    • 각 데이터가 어떤 군집에 속하는지를 구하는 방법 
      • k-means
      • 계층적 군집화 

 

지도 학습

  • 반응변수 y의 데이터 형태에 따라
    • 회귀 
      • y가 양적 변수일 때 
    • 분류 (classification) 
      • y가 질적 변수 (범주형 변수) 일 때
        • 이진 클래스 분류, 다중 클래스 분류 
  • 예측과 교차검증 
    • 지도 학습은 예측에 특화되어 있음
      • 예측 
        • 동일 조건에서 얻을 수 있는 미지의 데이터에 대해 설명변수 x로 반응변수 y를 예측하는 것 
      • 교차검증(cross validation)
        • k-fold 교차검증
        • leave-one-out 교차검증 
      • 이하 생략 

 

13장. 모형 

 

수리 모형 : 미분 방정식

  • 미분방정식과 차분 방정식
    • 대표적인 수리 모형, 결정론 모형
      • 미분 방정식 (차분 방정식)
        • 시간에 따라 변화하는 변수 x와 시간에 따라 변화하지 않는 파라미터로 구성 
        • 수리 모형의 목적은 주어진 규칙을 따랐을 때 무엇이 일어나는가 조사
          • 시간과 함께 변수  x가 어떻게 변하는가와 같은 시계열 움직임을 대상으로 함 
  • 수리 모형 사례 : 수의 변화를 모형으로  
    • 지수함수 증가 
      • 생물의 개체 수 변화나 감염자 수 변화를 나타낼 수 있음
    • 지수 증식의 일반해와 분기 다이어그램 
      • r=1일 때 시간이 흘러도 x는 변하지 않고 r이 1보다 작다면 지수적으로 감소 
    • 밀도 효과
      • x가 늘어날수록 그 증가율이 줄어드는 효과 
      • 흔히 로지스틱 방정식이 사용됨 

 

수리 모형 : 확률 모형 

  • 무작위 행보 (random walk)
    • 1차원 무작위 행보
      • 예시) 도박사가 100만원을 가지고 승패 확률이 같은 도박을 시작했을 때, 100 만원은 시간이 지날수록 어떻게 변화할지 표현한 것   
    • 확률 과정 (stochastic process)
      • 확률적으로 시간 변동하는 현상을 기술하는 수리 모형 
  • 마르코프 과정
    • 무작위 행보를 일반화한 확률 과정 
    • 과거 상태와는 상관없이, 현재 상태에 따라 다음 상태가 결정되는 확률 과정 

느낀점 & 배운점

  • 사실 스터디를 위해 더욱 자세하게 정리하고, 그냥 읽으면 증발될 것 같아 요약을 했으나, 요약을 하고도 제대로 이해되지 않는 부분들이 있어 아직 배울 것들이 무궁무진하다는 것을 깨달을 수 있었다.
  • 인과추론을 위한 데이터 과학을 수강하면서 배운 다양한 인과, 상관관계의 개념들을 통계라는 거시적인 틀에서 바라볼 수 있어서 좋았다. 다 한 번씩은 배우고 들어본 것들이지만, 막상 남에게 설명하라고 하면 잘 못할 것 같은데, 이 글의 저자는 쉬운 예시를 들어가며 자세하게 설명하고 있다. 나도 어떠한 것을 쉽게 설명할 수 있는 능력을 닮고 싶다는 생각을 했다. 
  • 며칠 뒤 데이터 분석가 스터디에서 자세히 이에 대한 현업의 얘기를 나눌 수 있으면 좋겠다.  

 

References 

책, 통계 101 x 데이터 분석 , 아베 마사토 저, 프리렉
[통계] 모수 (Parameter)와 통계량 (Statistic)을 나타내는 기호 (그리스 문자, 영어 알파벳)   

 

[통계] 모수 (Parameter)와 통계량 (Statistic)을 나타내는 기호 (그리스 문자, 영어 알파벳)

모수와 통계량을 표현하는 문자에 대해 알아봅시다.

jiwondh.github.io

 

마지막 인사

혹시 이 인사를 보신다면... 분량을 보시면 아시겠지만... 정말 많은 시간과 피땀눈물이 담겨 있습니다...!!
조금이라도 도움이 되셨다면 ❤️를 눌러주시면 감사하겠습니다.
글쓰기를 지속하는 데에 큰 도움과 데이터가 됩니다 :) 
 
감사합니다. 

블로그의 정보

다람

darami

활동하기