인과추론의 데이터 과학 세션 7_ 인과 그래프
by darami[Session 7-1] 인과 그래프 (Causal Diagram)
[Session 7-2] 인과 그래프에서의 변수 통제방법
[Session 7-3] 인과 그래프에서의 인과추론 전략
을 듣고 요약한 내용입니다.
데이터 분석을 통한 인과추론
1) 디자인 기반 접근법
- Potential Outcome Framework를 기반으로 , 기본적으로 조작(manipulation) 할 수 있는 treatment에 대해서 안과 추론을 할 수 있다는 입장
- 적절한 리서치 디자인을 통해서 인과추론에 방해가 되는 선택 편향 (selection bias)를 제거하고자 하는 접근
2) 구조 기반 접근법 (Graphical/Structure Causal model)
- 인과 관계의 구조를 명시적으로 나타냄
- 인과 관계 이외의 backdoor path를 차단함으로써 인과관계를 추려내고자 하는 접근
Causal Diagram 이란
Directed Acyclic Graph (DAG)
- Grapth : 노드와 엣지로 만들어진 구조
- Directed : 방향성이 있다 (원인과 관계를 나타냄) 노드와 노드가 연결된 인과관계
- Acyclic : 순환되지 않는다. (수학적 증명을 위함)
예시
Relationshop types in DAG
- (Direct) Causal Effect , D -> Y
직접적인 인과 관계, ex) 운동---> 폐암 - Mediator (Chain) , D -> X -> Y
(Indirect Causal Effect) , ex) 운동 ---(면역 기능)---> 폐암 - Cofounder (Fork) , X-> D, X-> Y
교란 요인, 원인 변수와 결과 변수에 모두 영향을 미침
ex) 담배 -> 운동, 담배 -> 폐암 - Collider (Immorality) , D-> X , Y-> X
충돌 , ex) 교대 근무 -> 졸음증, 무호흡 -> 졸음증
Association in Causal Diagram
backdoor path 를 모두 차단한다.
- X and Y are d-connected
- 정보의 흐름이 연결되어있다.
- X and Y are d-seperated
- 정보의 흐름이 막혀있다.
- Confounder에서 X와 Y의 정보는 섞이지만, Collider에서 X와 Y의 정보는 섞이지 않음
- Confounder와 Mediator는 통제해야 함
- Collider 를 block하면 이 벽에 X와 Y가 서로 튕겨나오면서 정보가 섞임
- 때문에 Collider를 막거나 통제하려고하면 오히려 backdoor path가 생길 수 있음
인과 그래프에서 변수 통제 방법
1) Regression
- functional form이 맞다면
2) Matching
- 정보의 손실 발생
3) 역확률 가중법
Structural Causal Model (SCM)
- do(X) operator
- X에 영향을 주는 다른 요인들을 우선 배제하자
- 이 '배제'하는 행위를 Identification 이라고 함
- do-calculus를 통해서 identification이 가능한지 판단할 수 있음
- backdoor or Front door Adjustment
- 이 '배제'하는 행위를 Identification 이라고 함
- X에 영향을 주는 다른 요인들을 우선 배제하자
- do(T)와 같은 Random Assignment Treatment로 Conditional 와 Interventional probabilities를 같게 만들 수 있음
- do(T) 예시: 동전 던지기 등
SCM에서 주의할 점
- 인과 구조가 주어졌을 때에 너무 의존한다
- Like 세계가 어떻게 돌아가는지 (인과 그래프를 준다면) 알려준다면 내가 그 인과 관계에 답을 해줄게!
- M-bias
- 현실적으로 증명하기 어렵고 도메인 지식에 의존하는 편
인과 그래프의 응용
(1) 구조 기반 연구 디자인
1970년대에 호르몬 치료가 자궁 암을 야기한다는 연구가 등장
연구자들이 이 연구 디자인에 (research design) 대해 이의를 제기함
- 예일대
- 호르몬 치료 --> 자궁 출혈(Mediator)을 야기할 수 있고---> 자궁 암을 발견할 가능성을 높인다.
- 따라서 자궁 출혈(Mediator).이라는 변수를 통제하는 방식으로 backdoor path를 막을 수 있을 것이라고 생각함
- 예시) 자궁 출혈을 경험한 사람들만 대상으로 조사
- 하버드 & 보스턴
- 그런 방법으로 인과관계를 파악할 수 없다. 적절한 연구 디자인이 아니다.
인과 그래프로 살펴보기
1) 기존 주장 : 호르몬이 자궁암을 야기한다.
2) 기존 주장에 대한 예일대의 반박
자궁 출혈(Mediator)를 통제하면 된다.
3) 예일대의 반박에 대한 하버드 & 보스턴의 반박
1) 통제를 해도 collider로 인해 파란색 pass가 생김
2) 통제를 하지 않아도 노란색 pass가 생김
- 따라서 호르몬에서 자궁 출혈로 가는 pass를 차단해야 함 (역확률 가중법)
(2) 통제 변수의 디자인
- 절대적으로 최후의 수단이 되어야 함
- 변수 생략 편향 (omitted variable bias) 의 boundary analysis 또는 민감성 분석
- causal diagram에 기반해서 backdoor pass를 적절히 차단할 수 있는 통제 변수를 고려하자는 접근
- 이렇게 Family Background, Application, Acceptance 세 변수를 통제하면서 selection bias를 통제할 수 있음
- Stroy 1 보다 Stroy 2 와 같이 인과 그래프 (casual diagram)로 나타내는 것이 더 설득력이 높을 수 있음
- 따라서 실험(RCT,준실험) 등을 하기 어려운 상황에서 단순히 Regression을 사용하는 것이 아니라, Casual Diagram을 활용해서 통제 변수들을 고려한 "Designed" Regression (저자가 이름 붙임) 을 고려해 볼 수 있음
(3) 인과적 의사결정 (Causal Decision Making)
예시) 아래와 같은 심슨 패러독스 상황에서, 어떻게 의사 결정해야할까?
- Causal Diagram을 봐야 함
- S : 증상(Symptom)의 정도 (Mild/Severe)
- T : Treatmet A/B
- Y : Mortality rate
라고 가정한다면
- Causal Diagram 1 처럼 S가 T와 Y에 둘다 원인이 되는 Confounder라면 Treatment B가 더 효과적이다 라고 말할 수 있음
- Causal Diagram 2 처럼 S가 Mediator라면 Treatment A가 더 효과적이다 라고 말할 수 있음
(4) Identification and Estimation of Causal Effects
(5) Causal Discovery
데이터에서 causual structure를 도출하는 방법
이 방법들은 추후 강의에서 말씀해주실 예정
'인과 추론' 카테고리의 다른 글
A/B 테스트, 종합 대조 실험을 대체,보완할 수 있는 수단 Part 3 + 4 (1) | 2023.10.05 |
---|---|
인과추론의 데이터 과학 섹션 3,4_ 무작위 통제 실험, A/B Test (0) | 2023.08.01 |
인과추론의 데이터 과학 섹션 2 _ 실험, 준실험 (2) | 2023.07.25 |
인과 추론의 데이터 과학 섹션 1 _ 다양한 프레임워크 (0) | 2023.07.24 |
블로그의 정보
다람
darami