What a Beautiful Data!

A/B 테스트, 다르게 보이는 모든 것들은 대체로 틀렸다 Part 2

by darami
본 내용은 책 'A/B 테스트'를 참고하여 쓴 글입니다. 

Chapter 3 트위먼의 법칙과 실험의 신뢰도 

입사 초기부터 붙여 놓은 포스트잇

트위먼의 법칙이란..그런 것 같다. 본인이 회사 모니터 옆에 붙여 놓은 '의심하기' 라는 문구처럼, 흥미로워 보인다거나 특이한 데이터가 있으면 대부분 틀렸으니 여러가지로 쪼개든지 해서 다시 검증해보라는 것.. 이번 장은 어떤 부분들을 의심해보아야하는지 구체적인 사례를 제시해준다. That's 유용! 

트위먼의 법칙

"흥미롭게 보이거나 다르게 보이는 모든 것들은 대체로 틀렸다."

 

통계 결과의 잘못된 해석

  • 통계적 검정력 부족
    • 일반적인 실수 : 지표가 통계적으로 유의적이지 않다고 해서 실험 효과 (Treatment Efect)가없다고 가정하는 것.
      • 실험이 우리가 보고 있는 효과 크기를 탐지하기에는 검정력이 부족할 수 있다.
        • 테스트에 사용자가 충분하지 않을 수 있다.
        • 실험이 모집단의 작은 부분 집합에만 영향을 미치는 경우 영향을 받는 부분 집합만 분석하는 것이 중요하다.
  • p값의 잘못된 해석 
    • p값 : 귀무가설이 참이라고 가정할 때 관측된 것과 같거나, 또는 더 극단적인 결과를 얻을 확률 이다. 
    • 이것은 무슨 말이지..? 사실 잘 이해하기 어렵다. 따라서 p값에 대한 잘못된 해석으로 인해 다양한 통계 결과의 잘못된 해석이 일어난다. p값이 무엇인지에 대해 먼저 알아보자 :) 

출처 : simply psychology

출처 : P-Value And Statistical Significance: What It Is & Why It Matters

같은 설명이지만 확실히 원어와 그림으로 보면 확실히 더 이해가 간다. 

출처 :P-values and significance tests | AP Statistics | Khan Academy

Statquest 설명 :  p-values: what they are and how to interpret them  

  • 잘못된 해석의 예시
    • p값 = 0.05이면 귀무가설이 참일 확률이 5%에 불과하다. 
      • p값은 귀무가설이 참이라고 가정할 때~ 관측된 것과 같거나 또는 더 극단적인 값을 얻을 확률! 가정 자체를 한다. 
    • 유의하지 않은 차이 (예: p값 >.05)는 그룹 간에 차이가 없음을 의미한다.
      • 실험의 검정력이 부족하다는 것 (표본이 충분하지 않거나, 부분 집합에만 해당하는 것 등) 을 의미할 수 있다. 
  • p값 미리보기(p-value peeking)
    • 온라인 종합 대조 실험을 실행할 때 p값을 지속적으로 모니터링할 수 있다.
    • 그러한 다중 가설 검정은 결과를 통계적으로 유의하다고 선언할 때 유의한 편향(5~10배)을 초래한다.
      • 대안
        • p값이 유효한지 순차적 테스트 or 베이지안 테스트 프레임워크 사용
        • 통계적 유의도 결정에 일주일과 같이 미리 정해진 실험기간을 사용
          • 구글,링크드인,마이크로소프트에서 사용되고 있는 실험 플랫폼이 사용

 

다중 가설 검정 

여러가지 방법 중 p값이 낮은 방법을 선택하는 것 

  • 다중 테스트에서 가장 낮은 p값을 선택하면  p값과 효과 크기에 대한 추정치가 편향되기 쉽다. 
    • 거짓 발견 비율 (False Discovery Rate) 

신뢰구간

신뢰구간 : 실험 효과의 불확실성 정도를 계량화한 것

신뢰수준 : 신뢰 구간에 실제 실험 효과가 얼마나 자주 포함돼야 하는지를 나타냄 

 

 

내적 타당성에 대한 위협 

  • 내적 타당성 (internal validity)이란? 
    • 다른 모집단이나 다른 기간에 일반화를 시도하지 않는 실험 결과의 정확성을 말한다. (?)
    • 다른 잡음 변인이나 이유 때문이 아니라 오직 실험처치가 원인이 되어 그러한 실험결과가 나타났다고 자신 있게 말할 수 있는 정도 |  출처 : 네이버 상담학 사전 

이 내적 타당성을 위협하는 것들은 다음과 같다. 

  • SUTVA 위반
    • STUVA(Stable Unit Treatment Value Assumption) | 안정적 단위 실힘 가치 가정
      • 종합 대조 실험 분석에서는 사용자와 같은 실험 단위가 서로 간섭하지 않는 다는 것을 명기한 SUTVA를 적용하는 것이 일반적이다. 
      •  We require that "the [potential outcome] observation on one unit should be unaffected by the particular assignment of treatments to the other units" (Cox 1958, §2.4). This is called the stable unit treatment value assumption (SUTVA), which goes beyond the concept of independence. (Rubin causal model) 
      • In the context of our example, Joe's blood pressure should not depend on whether or not Mary receives the drug. But what if it does? Suppose that Joe and Mary live in the same house and Mary always cooks. The drug causes Mary to crave salty foods, so if she takes the drug she will cook with more salt than she would have otherwise. A high salt diet increases Joe's blood pressure. Therefore, his outcome will depend on both which treatment he received and which treatment Mary receives.
      • 위반 사례 
        • SNS (사용자들 끼리 연결)
        • 스카이프
        • 공동 저작 지원 문서 도구 (구글 독스 등)
        • 공유 경제 비즈니스 (에어비앤비, 우버 등) -> 실험군에 대해 가격을 낮추면 경매로 대조군에 영향을 미치게 된다. 
        • 공유 자원(CPU, 스토리지 등) 
        • 문제 해결 : 22장 참조      
  • 생존 편향 (survival bias)
    • survival bias is the logical error of concentrating on entities that passed a selection process while overlooking those that did not.
    • 일정 기간 동안 활동한 사용자를 분석하면 생존 편향이 발생한다.
    • 어떻게 생존 편향을 예방할 수 있을까?
      • The key to preventing survivorship bias is knowing that it exists, negatively affecting any decision-making process, specifically in investments. While researching decision-making, the first thing one should do to avoid bias is collect and scrutinize information from multiple credible sources, integrating quantitative and qualitative data. 출처 

  • 실험 의도 분석 (intention-to-treat)
    • 최초의 할당이 실행됐는지 여부에 상관 없이 최종의 할당을 분석에 사용한다. 즉 실험 효과는 실제로 적용 됐는지가 아닌 제안 또는 실험 의도에 기반한다. 예를 들어 광고 최적화를 실행한 광고주들만 분석하면 선택편향이 발생하며 실험 효과를 과대평가하게 된다. participants are studied in their randomized groups regardless of whether they complete the study vaccination or receive another intervention instead of the assigned treatment. Participants may drop out of studies for myriad reasons. For example, they may have moved away from the study location. ITT considers all randomized participants in the analysis, whether they drop out or not.
  • 샘플 비율 불일치 (SRM) 
    • 사용자 비율(또는 무작위 추출 단위)가 설계 비율에 근접하지 않을 경우 나타난다.    

 

외적 타당성에 대한 위협

  • 외적 타당성(external validity)란? 
    • 서로 다른 모집단(다른 국가, 다른 웹사이트)에 일반화될 수 있는 정도를 말한다. 
    • 이 모집단에 대한 일반화를 하기 전에 다른 모집단에 (예를 들어 다른 시장) 실험해보는 것이 좋다. 
  • 다른 기간으로 일반화 하는 것은 더 어렵다. 
    • 시간 기반의 외적 타당성에 대한 두 가지 주요 위협은 초두 효과(primacy effect)와 신기 효과(novelty effect)가 있다. 
      • 초두 효과(primacy effect)
        • 변경 사항이 도입되었을 때 그것에 익숙해지기까지 시간이 필요할 수 있다. 
        • 머신러닝 알고리즘이 작동하기까지 시간이 필요할 수 있다.
      • 신기 효과(novelty effect)
        • 새로움 효과는 지속되지 않는 효과 
      • 시간이 지남에 따라 사용량을 표시하고 증감 여부를 확인하는 것이 초두 효과와 신기 효과를 점검하기 위한 중요한 방법이다. 

출처 : Novelty and Primacy: A Long-Term Estimator for Online Experiments

세그먼트 차이 

  • 좋은 세그먼트란?
    • 시장 또는 국가
      • localization 부족 문제를 발견할 수 있다. 
    • 기기 또는 플랫폼 
    • 하루의 시간과 요일 
      • 주말 이용자 등은 다른 패턴을 보일 수 있음
    • 사용자 유형
      • 새 사용자, 기존 사용자 
    • 사용자 계정 기능 
      • 넷플릭스 싱글 계정 또는 공유 계정, 에어비앤비 싱글 또는 가족 여행자 
  • 세그먼트 관점에서 지표 
    • 모바일 운영체제에 따라 CTR을 나누었을 때 , 사용자의 충성도 차이라고 추정했지만 서로 다른 클릭 추적 방법론 때문이라는 것이 밝혀짐 
    • 즉, 이상한 자료를 보면 트위먼 법칙을 상기하고 문제를 조사하기 
  • 세그먼트 관점에서 본 실험 효과 (이질적 실험 효과, heterogeneous Treatment effects) 
    •  긍정적이든 부정적이든 강한 효과가 있는 경우 트위먼의 법칙을 발동해 원인을 파헤쳐야 한다. 

심슨의 역설 

데이터의 세부 그룹별로 일정한 추세나 경향성이 나타나지만, 전체적으로 보면 그 추세가 사라지거나 반대 방향의 경향성을 나타내는 현상을 의미한다. 

 

 

 

좋은 데이터 과학자들은 회의론자들이다. 그들은 이상 징후를 탐지하고 결과에 의문을 제기하며, 결과가 너무 좋아 보일때 트위먼의 법칙을 발동한다.

블로그의 정보

다람

darami

활동하기