What a Beautiful Data!

인과추론의 데이터 과학 세션 7_ 인과 그래프

by darami

[Session 7-1] 인과 그래프 (Causal Diagram)

[Session 7-2] 인과 그래프에서의 변수 통제방법

[Session 7-3] 인과 그래프에서의 인과추론 전략

[Session 7-4] 인과 그래프의 응용

을 듣고 요약한 내용입니다. 

 

데이터 분석을 통한 인과추론

1) 디자인 기반 접근법

- Potential Outcome Framework를 기반으로 , 기본적으로 조작(manipulation) 할 수 있는 treatment에 대해서 안과 추론을 할 수 있다는 입장

- 적절한 리서치 디자인을 통해서 인과추론에 방해가 되는 선택 편향 (selection bias)를 제거하고자 하는 접근

2) 구조 기반 접근법 (Graphical/Structure Causal model)

- 인과 관계의 구조를 명시적으로 나타냄

- 인과 관계 이외의 backdoor path를 차단함으로써 인과관계를 추려내고자 하는 접근

 

Causal Diagram 이란

Directed Acyclic Graph (DAG)
  • Grapth : 노드와 엣지로 만들어진 구조
  • Directed : 방향성이 있다 (원인과 관계를 나타냄) 노드와 노드가 연결된 인과관계
  • Acyclic : 순환되지 않는다. (수학적 증명을 위함)

예시

출처 : 인과추론의 데이터 과학

Relationshop types in DAG
  • (Direct) Causal Effect , D -> Y
    직접적인 인과 관계, ex) 운동---> 폐암
  • Mediator (Chain) , D -> X -> Y
    (Indirect Causal Effect) , ex) 운동 ---(면역 기능)---> 폐암
  • Cofounder (Fork) , X-> D, X-> Y
    교란 요인, 원인 변수와 결과 변수에 모두 영향을 미침
    ex) 담배 -> 운동, 담배 -> 폐암
  • Collider (Immorality) , D-> X , Y-> X
    충돌 , ex) 교대 근무 -> 졸음증, 무호흡 -> 졸음증
Association in Causal Diagram

backdoor path 를 모두 차단한다.

  • X and Y are d-connected
    • 정보의 흐름이 연결되어있다.

출처 : 인과추론의 데이터 과학

  • X and Y are d-seperated 
    • 정보의 흐름이 막혀있다. 

출처 : 인과추론의 데이터 과학

  • Confounder에서 X와 Y의 정보는 섞이지만, Collider에서 X와 Y의 정보는 섞이지 않음 
    • Confounder와 Mediator는 통제해야 함 
    • Collider 를 block하면 이 벽에 X와 Y가 서로 튕겨나오면서 정보가 섞임 
      • 때문에 Collider를 막거나 통제하려고하면 오히려 backdoor path가 생길 수 있음 

출처 : 인과추론의 데이터 과학

인과 그래프에서 변수 통제 방법 

1) Regression

  - functional form이 맞다면 

2) Matching

  - 정보의 손실 발생 

3) 역확률 가중법 

출처 : 인과추론의 데이터 과학

 

 Structural Causal Model (SCM) 

  • do(X) operator 
    • X에 영향을 주는 다른 요인들을 우선 배제하자 
      • 이 '배제'하는 행위를 Identification 이라고 함 
        • do-calculus를 통해서 identification이 가능한지 판단할 수 있음
        • backdoor or Front door Adjustment  

출처 : 인과추론의 데이터 과학

  • do(T)와 같은 Random Assignment Treatment로 Conditional 와 Interventional probabilities를 같게 만들 수 있음
    • do(T) 예시: 동전 던지기 등 

 

SCM에서 주의할 점 

  • 인과 구조가 주어졌을 때에 너무 의존한다
    • Like 세계가 어떻게 돌아가는지 (인과 그래프를 준다면) 알려준다면 내가 그 인과 관계에 답을 해줄게! 
  • M-bias
    • 현실적으로 증명하기 어렵고 도메인 지식에 의존하는 편 

 

인과 그래프의 응용 

(1) 구조 기반 연구 디자인 

1970년대에 호르몬 치료가 자궁 암을 야기한다는 연구가 등장

 

연구자들이 이 연구 디자인에 (research design) 대해 이의를 제기함 

 

  • 예일대
    • 호르몬 치료 --> 자궁 출혈(Mediator)을 야기할 수 있고---> 자궁 암을 발견할 가능성을 높인다. 
    • 따라서 자궁 출혈(Mediator).이라는 변수를 통제하는 방식으로 backdoor path를 막을 수 있을 것이라고 생각함
      • 예시) 자궁 출혈을 경험한 사람들만 대상으로 조사 
  • 하버드 & 보스턴
    • 그런 방법으로 인과관계를 파악할 수 없다. 적절한 연구 디자인이 아니다. 

 

인과 그래프로 살펴보기 

 

1) 기존 주장 : 호르몬이 자궁암을 야기한다. 

출처 : 인과추론의 데이터 과학

 

2) 기존 주장에 대한 예일대의 반박 

출처 : 인과추론의 데이터 과학

자궁 출혈(Mediator)를 통제하면 된다. 

 

3) 예일대의 반박에 대한 하버드 & 보스턴의 반박 

출처 : 인과추론의 데이터 과학

 

1) 통제를 해도 collider로 인해  파란색 pass가 생김

2) 통제를 하지 않아도 노란색 pass가 생김 

 

- 따라서 호르몬에서 자궁 출혈로 가는 pass를 차단해야 함 (역확률 가중법) 

 

(2) 통제 변수의 디자인 

  • 절대적으로 최후의 수단이 되어야 함 
    • 변수 생략 편향 (omitted variable bias) 의 boundary analysis 또는 민감성 분석
    • causal diagram에 기반해서 backdoor pass를 적절히 차단할 수 있는 통제 변수를 고려하자는 접근 

출처 : 인과추론의 데이터 과학

  • 이렇게 Family Background, Application, Acceptance 세 변수를 통제하면서 selection bias를 통제할 수 있음
  • Stroy 1 보다 Stroy 2 와 같이 인과 그래프 (casual diagram)로 나타내는 것이 더 설득력이 높을 수 있음 
  • 따라서 실험(RCT,준실험) 등을 하기 어려운 상황에서 단순히 Regression을 사용하는 것이 아니라, Casual Diagram을 활용해서 통제 변수들을 고려한 "Designed" Regression (저자가 이름 붙임) 을 고려해 볼 수 있음  

 

(3) 인과적 의사결정 (Causal Decision Making) 

예시) 아래와 같은 심슨 패러독스 상황에서, 어떻게 의사 결정해야할까? 

- Causal Diagram을 봐야 함 

출처 : 인과추론의 데이터 과학

  • S : 증상(Symptom)의 정도 (Mild/Severe)
  • T : Treatmet A/B
  • Y : Mortality rate   

라고 가정한다면

  • Causal Diagram 1 처럼 S가 T와 Y에 둘다 원인이 되는 Confounder라면  Treatment B가 더 효과적이다 라고 말할 수 있음 

출처 : 인과추론의 데이터 과학

  • Causal Diagram 2 처럼 S가 Mediator라면 Treatment A가 더 효과적이다 라고 말할 수 있음 

 

(4) Identification and Estimation of Causal Effects 

(5) Causal Discovery 

데이터에서 causual structure를 도출하는 방법 

이 방법들은 추후 강의에서 말씀해주실 예정 

블로그의 정보

다람

darami

활동하기