1. Definition
어떤 명제에 대해 데이터 분석으로 얻어낸 패턴에 해당하는 경우의 수 = Nfind
어떤 명제에 대해 랜덤 패턴으로 뽑아서 얻어낸 경우의 수 = Nrandom
만약 Nrandom>Nfind이면, Nfind을 얻는데 사용한 패턴은 쓸모없는 패턴이다. 이것은 본페로니의 원칙 (Bonferroni's principle)이라고 한다.
2. Example
적어도 2번 이상 같은 날 같은 호텔에서 보낸 상관없는 사람들을 의심스러운 사람이라고 생각해도 될까?
가정:
- 109의 사람들이 있음.
- 1000일 동안 집계.
- 집계시간의 1%의 시간은 호텔에서 보냄 (즉, 100일에 한번꼴로 호텔에서 보냄.)
- 호텔은 100명의 사람들이 묵고있음.
- 호텔은 105개 있음.
2명이 호텔에가려고 마음을 먹어야 됨 : 10−2∗10−2=10−4
마음 먹은 2명이 같은 호텔을 선택해야 함 : 10−4∗10−5=10−9
근데 이게 서로 다른 두 날에 똑같이 일어나야 함 : 10−9∗10−9=10−18
가능한 사람 쌍의 수 = (1092)≈5∗1017
가능한 날짜 쌍의 수 = (10002)≈5∗105
의심스러울 것으로 기대되는 사람의 수 = 5∗1017∗5∗105∗10−18=250,000
-> 별 조건없이 무작위로 추출해도 25만 쌍이 나옴.
-> 저 사람들을 의심스럽다고 판단하는 것은 무리임!