새소식

반응형
컴퓨터공학 (Computer Science)/┣기계학습 | Machine Learining

나이브 베이즈 (Naive Bayes)

  • -
반응형

1. Introduction

나이브 베이즈 또는 나이브 베이즈 분류는 분류 문제에 베이즈 정리를 적용한 기법이다. 지식을 기반으로 결정하는 인간의 판단방법을 실제 기법으로 옮긴 듯한 방법이다.

나이브 베이즈는 데이터셋의 모든 특성 $x_i$가 다른 특성 $x_j$와 독립일 것이라는 순진한 가정을 한다. 

2. Approach

나이브 베이즈의 가정에 의해 다음과 같은 조건부 확률이 성립한다. $$ P(x_i|x_j)=P(x_i)$$

또한, 확률의 연쇄법칙 (Chain Rule)에 의해 확률밀도함수를 다음과 같은 조건부 확률의 곱으로 나타낼 수 있다.

$P(x) = P(x_1,...,x_n)$

$=P(x_2,...,x_n|x_1)P(x_1)$

$= P(x_3,...,x_n|x_1,x_2)P(x_2|x_1)P(x_1)$

$= \prod_{i=1}^n P(x_i|x_1,...,x_{n-1})$

여기에 나이브 베이즈의 가정을 적용하면 다음과 같이 간략화된 식을 얻는다. $$\prod_{i=1}^n P(x_i)$$

다음과 같은 데이터 셋이 있다고 하자.

Name Gender Glasses Country Dominent hand
Alice F Yes U.S Right
Bob M No France Right
Charlie M No Canada Right
Dave M Yes South Korea Left
Eve F Yes Germany Right
Frank M Yes U.S Both

이 데이터 셋에서 나이브 베이즈 분류기에 의해 학습된 모델이 남자이면서, 안경을 안쓰고, 미국 국적을 가지면서, 왼손잡이일 확률은 ${2\over 3}\times{1\over 3}\times{1\over 3}\times{1\over 6} = {1\over 27}$이다.

즉, 해당 인물은 실제로 저 데이터 셋에는 포함되지 않지만 학습된 모델에 의해 낮은 확률로 등장할 수도 있다!

3. Discussion

나이브 베이즈의 장점은 뭐니뭐니해도 간단하고 빠르다는 것.

주로 스팸메일 분류에 사용된다. 

문제점은 모든 특징을 독립적으로 생각한다는 것. 현실의 문제중에서 이런경우는 거의 없다고 봐도 무방하다. 또한 특징들 간의 우위성이 없어서 중요도를 다루는 환경에서는 불리하다.

예를 들면, 이미지 환경에서 나이브 베이즈는 매우 불리하다. 이미지는 픽셀단위로 처리가 되는데 이때 픽셀은 이웃한 픽셀과의 영향이 굉장히 큰 것으로 가정한다. 컴퓨터 비전에서 각종 필터가 사용되는 이유도 이런 가정이 있기 때문이다.

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.