인과추론의 데이터 과학 섹션 2 _ 실험, 준실험
by darami[Session 2-2] 인과추론의 정석: 무작위 통제실험 (Randomized Controlled Trial)
[Session 2-3] 실험 아닌, 실험 같은 준실험 (Quasi-Experiment)
[Session 2-4] 준실험 분석도구: 이중차분법 & 회귀불연속 (Difference-in-Differences & Regression Discontinuity)
를 보고 이를 요약한 내용입니다.
[Session 2-1] 인과추론을 위한 연구 디자인
지난 시간에는..
Potentioal Outcome Framework 하에서 인과 추론의 가장 큰 목표는 선택 편향 (Selection bias) 를 제거하는 것
--> 세테리스 파리부스 (Ceteris Paribus)
for this, 비교 가능한 컨트롤 그룹을 찾는 리서치 디자인을 고안해야함
from this, 성공적인 인과 추론 가능
세테리스 파리부스 (Ceteris Paribus)란?
Ceteris Paribus는 일반적으로 "다른 모든 것이 동등하다면"는 의미의 라틴어 구입니다.
- 경제학에서 그것은 다른 모든 변수가 동일하게 유지된다면 한 경제 변수가 다른 변수에 미치는 영향을 속기적으로 나타내는 역할을 합니다.
- 많은 경제학자들은 시장의 상대적 경향을 설명하고 경제 모델을 구축하고 테스트하기 위해 Ceteris Paribus에 의존합니다.
- ceteris paribus의 어려움은 변화를 주도하는 요소를 분리하기 위해 다른 모든 변수를 일정하게 유지해야 한다는 점입니다.
- 실제로는 "다른 모든 것이 동일하다"고 가정할 수 없습니다.
출처 : https://www.investopedia.com/terms/c/ceterisparibus.asp
리서치 디자인의 방법론들은 뭘까?
인과 추론을 위한 리서치 디자인의 위계
Meta-Analysis
- 여러 결과들을 종합해서 분석하는 것
Randomized Experiment (RCT라고 많이 부름)
- Potential Outcome Framework 하에서, 단일 방법론으로 제일 수준 이 높은 방법
Quasi-Experiment (준실험 상황)
- 실제 상황에서 RCT와 같은 실험을 하기는 쉽지 않음. 따라서 현실적으로 특정 상황에서는 Quasi Experiment도 RCT에 가까운 인과 추론을 할 수 있음.
Instrumental Variable (도구 변수)
- 경우에 따라 준실험 상황마저도 없을 경우가 많기 때문에, 인위적인 도구를 활용하는 것
- 내생성을 제거하기 위한 도구
- 실제 상황에서 도구 변수를 찾는 것은 굉장히 어려움
"Designed" Regression
- 실제로 이러한 Regression이 있는 것은 아님, 어떤 통제 변수를 넣을지 디자인한다는 의미에서 연사가 임의로 붙임
Regression
- 디자인이 고려되지 않은 단순 회귀 분석은 인과 추론 수준이 가장 낮다고 볼 수 있음
Model-Free Descriptive Statistics (기술 통계량)
- 평균값과 같은 기술 통계량으로 비교하는 것은, 결과에 영향을 줄 수 있는 요인들이 너무 많기 때문에 이것으로 인과 추론을 하는 것은 거의 불가능에 가까움
앞으로의 강의 흐름
[Session 2-2] 인과추론의 정석: 무작위 통제실험 (Randomized Controlled Trial)
Gold Standard of Causal Inference : Random Assignment
좋은 특징
- 비교 가능한 그룹을 만듦
- 복잡한 통계 방법 없이도 성공적인 인과 추론을 할 수 있음
한계점
- 샘플 숫자가 충분하지 않으면 유효하지 않음 , 대수의 법칙
- 우리가 모르는 어떤 요인에 의해서 순수하게 랜덤 배정이 안될 수 있음
--> treatment에 대해서 반드시 그룹을 비교해 볼 필요가 있음
- But, Random Assignment 가 만병 통치약은 아니다. ex) 명인제약 예시
[Session 2-3] 실험 아닌, 실험 같은 준실험 (Quasi-Experiment)
Experimental Setting without Random Assignment : Quasi-Experiment
현실 상황에서는 실험을 하지 못하는 상황들이 많이 발생함.
Random Assignment는 못하더라도, 마치 실험과 같은 비슷한 분석을 할 수 있음
우선,
연구의 목적이 인과 추론이 맞는가? 에 대한 판단 해야 함
> No : 굳이 리서치 디자인을 고려할 필요는 없음
Flow chart
- treatment가 assigned 되는 방식을 제외하고는 RCT와 유사함
- 샘플 숫자가 충분하지 않으면 Matching은 적절하지 않을 수 있음
- 세테리스 파리부스 (Ceteris Paribus) 를 증명하는 것이 중요함
Exogenous Shock
- treatment 그룹과 control 그룹이 treatment (Local finance에 대한 접근성)을 제외하면
다른 요인에 있어서 얼마나 유사한지를 알아야 함 [=Ceteris Paribus를 만족하는지 = 인과 추론의 목표]
--> Exogenous Shock (자연선택) 이 이 부분에서 유리함
- (어디서 어떻게, 언제 일어날지 아무도 예상할 수 없기 때문)
--> 어느 정도 랜덤 선택과 유사하다고 할 수 있음 , Ceteris Paribus를 꽤 만족한다고 할 수 있음
Self - Selection
- Self- Selection의 경우에는 위 예시처럼 해당 댓글을 남긴 의도를 잘 모르기 때문에 Ceteris paribus 증명에 한계가 있음
- 조금 더 안전한 경우
- Self-Selection의 경우에는 Ceteris Paribus의 증명에 대한 부담이 훨씬 더 커짐
- 하지만 불가피하게 Self -Selection를 사용해야 한다면, 여러 가지 방법을 사용해서 Ceteris Paribus를 증명하려고 노력해야 할 것임.
[Session 2-4] 준실험 분석도구: 이중차분법 & 회귀불연속 (Difference-in-Differences & Regression Discontinuity)
Difference-in-Differences (DID) _ 이중차분법
왜 DID가 인과추론에서 중요할까?
Potentioal outcome framework 에서 제일 중요한 것은 counterfactual , 아래 과정을 통해 추론된 counterfactual을 구할 수 있기 때문
counterfactual 란?
만약 treatment가 없었다면 있었을 잠재적 결과 (T'A)
parallel trends assumption
DID 분석의 핵심 가정
- treatment 그룹과 control 그룹의 시간에 따라 변화하는 변화 정도만 유사하다면 분석이 유의미함
NBC와 Apple의 협상 결렬의 Exogenous Shock , DID를 보여줌
Matching Techiques
비교 가능한 통제 그룹이 없을 때, 우리가 가진 변수 요인을 가지고 비교 가능한 통제 그룹을 인위적으로 만들어 주는 것
- 역확률 가중법은 나중에 설명, PSM이 가장 대중적임
- Propensity score로만 매칭하면 밸런스가 안 맞을 수 있음
- 그래서 CEM이 나옴
- Exact Matching을 하면 샘플이 작고, 활용하기 어렵기 때문에 Coarsend Exact Matching 이 나옴
- CEM : 동일한 구간에 있는 값들을 매칭, 느슨한 매칭
Discontinuity
- RD의 핵심은 Running variable에 대한 모델링, 이를 기반으로 counterfactual을 계산하고자 함
- RD는 DID와는 달리 Functional form에 대해 굉장히 민감한 방법임 (Linear / Non-Linear 등)
느낀점
- 현실적으로 해당 실험이 불가능한 경우들을 언급하며, 이를 대체하기 위한 다양한 방법론을 설명해주셨는데, 현재의 상황에 대한 약간의 위안을 받을 수 있었다. 또한 방법이 없는 것 같아도 또 다양하게 파고들면 통계학적으로 방법이 존재하는 구나, 하지만 데이터가 적으면 (모수가 작으면..) 어쩔 수 없구나 라는 것을 깨달았다.
'인과 추론' 카테고리의 다른 글
A/B 테스트, 종합 대조 실험을 대체,보완할 수 있는 수단 Part 3 + 4 (1) | 2023.10.05 |
---|---|
인과추론의 데이터 과학 세션 7_ 인과 그래프 (0) | 2023.08.21 |
인과추론의 데이터 과학 섹션 3,4_ 무작위 통제 실험, A/B Test (0) | 2023.08.01 |
인과 추론의 데이터 과학 섹션 1 _ 다양한 프레임워크 (0) | 2023.07.24 |
블로그의 정보
다람
darami