1. Definition
어떤 명제에 대해 데이터 분석으로 얻어낸 패턴에 해당하는 경우의 수 = $N_{find}$
어떤 명제에 대해 랜덤 패턴으로 뽑아서 얻어낸 경우의 수 = $N_{random}$
만약 $N_{random} > N_{find}$이면, $N_{find}$을 얻는데 사용한 패턴은 쓸모없는 패턴이다. 이것은 본페로니의 원칙 (Bonferroni's principle)이라고 한다.
2. Example
적어도 2번 이상 같은 날 같은 호텔에서 보낸 상관없는 사람들을 의심스러운 사람이라고 생각해도 될까?
가정:
- $10^9$의 사람들이 있음.
- 1000일 동안 집계.
- 집계시간의 1%의 시간은 호텔에서 보냄 (즉, 100일에 한번꼴로 호텔에서 보냄.)
- 호텔은 100명의 사람들이 묵고있음.
- 호텔은 $10^5$개 있음.
2명이 호텔에가려고 마음을 먹어야 됨 : $10^{-2} * 10^{-2} = 10^{-4}$
마음 먹은 2명이 같은 호텔을 선택해야 함 : $10^{-4} * 10^{-5} = 10^{-9}$
근데 이게 서로 다른 두 날에 똑같이 일어나야 함 : $10^{-9} * 10^{-9} = 10^{-18}$
가능한 사람 쌍의 수 = ${10^9 \choose 2} \approx 5 * 10^{17}$
가능한 날짜 쌍의 수 = ${1000 \choose 2} \approx 5 * 10^5$
의심스러울 것으로 기대되는 사람의 수 = $5 * 10^{17} * 5 * 10^5 * 10^{-18} = 250,000$
-> 별 조건없이 무작위로 추출해도 25만 쌍이 나옴.
-> 저 사람들을 의심스럽다고 판단하는 것은 무리임!