Credible Interval(신용구간) , Confidence Interval(신뢰구간) 차이

2019. 11. 11. 23:04ML(머신러닝)/Bayesian

728x90

도움이 되셨다면, 광고 한번만 눌러주세요.  블로그 관리에 큰 힘이 됩니다 ^^

아래 미디엄에 처음에 저 Credible Interval이 신뢰구간인 줄 알고 오랜만에 복습할 겸 읽어봤는데,... 아니었다...
베이지안에서 사용하는 Credible interval이었고, 베이안에 관심이 있기 때문에 읽어보기 시작했다.

https://towardsdatascience.com/do-you-know-credible-interval-e5b833adf399

 

Do You Know Credible Interval

Don’t Mess up Your Next Data Science/Analyst/PM Interview

towardsdatascience.com

“Here is a confidence interval from the XYZ experiment. What does it mean?”

Answer1 : “There is 95% probability/plausibility/likelihood that the population parameter lies in the interval.”

Answer2 : “If we repeat the experiment infinitely many times, 95% of the experiments will capture the population parameter in their confidence intervals.”

신뢰구간을 Answer1이라 생각했다면, 신뢰구간에 대해 다시 공부해야 할 것이다.(그래서 나도 공부중 ㅎ)

하지만 보기에 저 2개가 똑같은 말이냐고 할 수 있지만, 전문가라면 이러한 것에 대한 차이를 알아야 한다.

나는 전문가가 되고 싶으니 반성을 하면서 읽었다.

Answer 1 : Credible Interval  / Answer 2 : Confidence Interval 


왜 혼란스러워할까?

만약 통계적 지식이 없다면, 헷갈리는 게 당연하니 공부를 하자.
저 말에 표현에서 이것은 확률에 관한 두 가지 반대 이념으로 요약된다 ( 빈도주의자와 , 베이지안)
개인적으로 딥러닝도 결국에는 베이지안 방식으로 모델링하는 방향으로 갈 것 같다. 하지만 기초 수준으로는 어림도 없는 것 같다. 그렇다고 혼자 공부하기에는 너무 어렵고... 눙물

베이지안은 확률을 믿음으로 정의한다.
믿음(Belief) 이 강하다, 약하다고 표현할 수 있고, 새로운 증거가 들어오면 계속해서 수정 가능하다.
믿음 그 자체는 확률 분포로 설명된다. 
예를 들어, 평균 유저 체크 아웃 타임에 대한 나의 믿음은 이렇게 표현할 수 있다.
44~46 사이에서 평균적으로 체크 아웃할 확률은 3.5%
11~24 사이에서 평균적으로 체크 아웃할 확률은 34%
이 말 뜻에는 평균 체크 아웃 타임을 구체적인 숫자로 명시하고자 하는 게 아니라 범위의 확률로써 기술한다.

빈도주의자는 확률을 빈번한 횟수로써 정의한다.
우리가 일반적으로 배우는 통계가 빈도주의자들이 주장하는 방법들을 배운다.

빈도주의자는 모집단의 파라미터는 고정되어있다고 믿는다. 
예를 들어, 
질병 발생률, 수렴율 평균 체크 아웃 타임) 그리고 이것은 찾는 방법은 오직 많은 실험을 해야 한다는 것이다. 왜냐하면 현실 세계는 실험은 종종 비용이 많이 들기 때문에, 우리는 많은 실험을 수행함으로써 얻을 수 있는 것과 동일한 샘플링 분포를 단일 실험에서 도출하기 위해 중앙 중심극한정리(Central Limit Therem)를 사용한다.

하지만 진짜 혼란스러운 것은 실제로 빈도주의자들은 현실 세계에서 실험을 빈번하게 하지 않는다는 것이다.
그들은 베이지안이 하는 것처럼 오직 한 번의 실험으로 하나의 신뢰구간을 만든다. 
중심 극한 정리가 반복된 실험으로부터 돈을 아낄 수 있는 유용한  지름길을 주기 때문이다


Two Animated Examples

 

신뢰구간은 마치 ring toss game과 같다.
여기서 기둥은 마치 모집단 파라미터와 같이 고정된 것이다.
그리고 기둥에 링을 던진다. 때때로 들어갈 때가 있고 안 들어갈 때가 있다. 
95%가 들어갈 때까지 많은 수의 링을 던진다. 링의 크기는 너의 신뢰 구간 사이즈와 같다.
You choose a large enough ring so you can catch the post 95% of the time. The ring size is like your 95% confidence interval size.

Ring toss game은 신뢰구간과 같다

유사하게 빈도주의자는 많은 시간 무한번의 실험을 시행한다. 그리고 하나의 점을 추정한다 (표본 평균) 
각각의 실험에서 하나의 신뢰구간 얻는다. 그 점 추정의 분포는 sampling distribution(표본 분포)라고 한다.
아래 애니메이션을 보면 모집단의 평균은 0.078로 고정되어 있다고 하자. 

파란 점은 upper bound / 주황 점은 lower bound이다. 
그러면 그 파란 점과 주황점 사이가 신뢰구간이 되는데, 많은 신뢰구간들이 모집단의 파라미터를 포함하고 있다.
몇몇 신뢰구간은 그렇지 않은 것도 있다.
빈도 주의자는 모집단 파리 미터를 잡고 있는 가장 큰 신뢰구간을 선택한다.
그래서 실제 신뢰구간의 95% 의미는 만약 100개의 신뢰구간이 있을 때 95개의 신뢰구간이 모집단의 파라미터를 포함하고 있을 것 같다는 것이다.

신뢰구간 95%는 신뢰구간 100개중 95개가 모집단의 파라미터를 포함하고 있다라는 의미라고 할 수 있다.


베이지안은 Sampling distribution(표본 분포)에 대해 신경 쓰지 않는다. 
그들은 Posterior distribution(사후 분포)처럼 모집단의 파라미터에 대한 믿음을 모델링한다.(특정 값이 아닌 확률분포)
가장 기본적인 예제는 동전 던지기가 공평한지를 측정하는 것이다. 
만약 당신이 연속적으로 코인을 튕긴다고 했을 때, 앞, 뒤로 떨어지는 가능성에 대해 신뢰를 점점 가지게 될 것이다.
아래 애니메이션을 보면 각각의 iteration은 동전을 튕기는 것이다. 
앞면은 ⍺ 로써 카운트되고 뒷면은 β 로써 카운트된다.
하면 할수록 보시는 바와 같이 0.5쪽으로 평균이 가면서 분산이 작아지는 것을 보면서 동전이 공평하다는 것을 알 수 있다.

베이지안에서는 credible interval을 이런 식으로 다양하게 할 수 있는데, 아마 가장 좁은 Credible Interval 값은 HDI(Highest Density Interval)라고 불린다.

반면에 신뢰구간은 표본 분포를 모델링하기 위해 중심 극한 정리(CLT)에 반드시 의존하게 된다.


비교

Credible Interval 장점 1

모집단의 파라미터를 사후 분포로써 모델링할 수 있다. (예 베타 분포는 (0 ~ 1) 확률분포로써 표현하기 좋음)
하지만 신뢰구간은 중심 극한 정리로 인해 항상 정규 분포가 되고 그것에 구간은 (-infinity ~ infinity) 
그래서 이러한 배경에서는 명백히 결함이 있다. 왜냐하면 코인의 확률은 1보다 크거나 0보다 작을 수 없기 때문이다.
샘플 사이즈가 작을 때는 다소 문제가 되고, 정규 분포의 많은 질량이 0~1 밖으로 놓이게 된다.

Credible Interval 장점 2

또 다른 장점은 실험하기 전에 사전 확률(Prior)이라는 것을 고려할 수 있다. 
만약 누군가 이전에 50번의 코인을 던져서 20번이 앞면이라는 것을 기록해 놨다고 하자. 
우리는 이전에 코인에 대한 정보를 가지고 있게 되는 것이다. 그래서 베타 사후의 정점은 더 빠르게 최빈값으로 접근하고 표본 분포보다 더 빠르게 좁아질 것이다(분산이 작아진다는 의미)
결과적으로 신용 구간은 신뢰구간보다 훨씬 빠르게 좁아질 것이다.


잃을 것은 없는지?

거기까지는 좋았지만 왜 항상 신뢰할 수 있는 간격을 사용하지 않는가?라는 질문을 할 수 있을 것이다.
문제점은 모델 전환율, 당뇨병 비율 또는 기타 확률에 대한 베타 분포가 있지만, 항상 실험처럼 사후 분포가 깔끔한 분포형태로 잘 나오지 않는다는 것이다.
사실 베타 분포는 일반적인 것이 아니라 예외적인 케이스다  현실 세계는 정규 분포가 정상적이다

빈도 주의자에게는 다행스럽게도, 우리는 실험의 세계가 아닌 현실의 세계에 살고 있다.
traffic이 싸면 중심 극한 정리는 항상 승리한다. 그리고 그 신뢰구간과 신용구 간과의 차이는 줄어둔다.
그래도 샘플 사이즈가 적은 경우에는 신용 구간이 제일 가치가 있다. 


결론

이 포스팅을 하면서 얻은 점이 있다.
일단 다음 줄로 넘어갈 때 shfit + enter를 하면 딱 한 줄만 넘어가진 다는 것을 297개의 포스팅 후 처음 알았다 ㅎㅎ
암튼 신용구 간과 신뢰구간에 대해 차이를 잘 알게 됐고, 확실한 의미 차이를 알게 되는 글을 번역해봤다.
베이지안은 컴퓨팅 문제로 많은 이슈가 있지만, 결국에 해석 쪽으로 가게 되면 무조건 갈 수밖에 없을 것 같다.
그러므로 내가 생각하기에 딥러닝을 잘하고 싶은 사람에게 베이지안은 반드시 넘어야 할 산과 같다고 생각한다.
그러니 열심히 공부하자! 
논문을 써야하는데, 논문쓰는 것 빼고는 다 재밌다...ㅎㅎ 

어제보다 나은 오늘!

https://www.youtube.com/watch?v=tOTrFrSJXdw

 

728x90