1. Introduction
두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리이다. 조건부 확률 $P(A|B)$를 알고 싶은데, 가지고 있는 정보가 $P(A), P(B), P(B|A)$일 때, 이를 통해 알아내는 정리이다.
2. Approach
유도는 어렵지 않다. 이전의 조건부 확률의 확장이다.
$$P(A|B) = {P(A\cap B)\over P(B)} = {P(B|A)P(A)\over P(B)} = {P(B|A)P(A)\over P(B|A)P(A)+P(B|A^c)P(A^c)}$$
여기서,
- $P(A|B)$는 사후확률 (Posterior Probability)로 구하고자 하는 사건(B가 일어났을 때 A)의 확률이다.
- $P(A)$는 사전확률 (Prior Probability)로 B가 일어나기 전의 확률이다.
- $P(B|A)$는 우도 (Likelihood)로 B에서 A가 일어날 가능성 (확률의 확률)이다. 여기서는 쉽게 $P(A|B)$에 대한 지지도 라고 생각하면 편하다.
- $P(B)$는 증거 (Evidence)로 주사건인 A의 영향은 주는 사건(B)의 분포이다.
3. Discussion
3.1 역확률
베이즈 정리는 앞의 정의에서 알 수 있듯, 본래 역확률(inverse probability) 문제를 해결하기 위한 방법이었다. 즉, 조건부 확률 $P(B|A)$를 알고 있을 때, 전제와 관심 사건이 관계가 정반대인 조건부 확률 $P(A|B)$을 구하는 방법이었다.
예를 들어, 병 I를 앓고 있는지를 판정하는 정확도가 90%인 방법이 있고, 어떤 사람이 이 방법으로 검사를 시행해서 양성판정이 나왔다면, 이 사람이 90%의 확률로 병에 걸려 있다고 이야기할 수 있을까? 그렇지 않다. 왜냐하면 검사가 알려주는 확률과 우리가 알고 싶은 확률은 조건부 확률의 의미에서 정반대이기 때문이다.
검사의 정확도 '90%'는 검사가 병을 가진 사람을 정확하게 포착할 확률, 즉 병을 가지고 있다는 전제 하에 검사 결과가 양성일 확률이 90%임을 의미한다.
하지만 우리가 알고 싶은 것은 검사 결과가 양성이라는 전제 하에 병을 앓고 있을 확률이다. 이는 앞에서 말한 확률과는 그 의미가 전혀 다르다. 아래 표에서도 볼 수 있듯, 조건부 확률의 관점에서 보면 전제(조건)와 관심 사건의 관계가 정반대이기 때문에, 이런 식의 확률을 구해야 하는 문제를 역확률 문제라고 부른다.
현재 상황을 다음과 같은 표로 나타내면 다음과 같다.
|
전제 |
관심 사건 |
수학적 표현 |
검사의 정확도 |
병을 앓고 있다 |
검사 결과: 양성 |
P(검사 결과: 양성|병을 앓고 있다) = 0.90 |
우리의 관심사 |
검사 결과: 양성 |
병을 앓고 있다 |
P(병을 앓고 있다|검사 결과: 양성) = ....? |
따라서, 실제 검사의 진단률을 알기위해서는 병을 앓을 확률을 알 필요가 있다. 1%의 인구가 이 병을 앓는다고 하면, 진단률은 약 8%이다. 똥이네