새소식

반응형
컴퓨터공학 (Computer Science)/┗ 인공신경망 | Neural Network

딥 러닝을 위한 배경지식

  • -
반응형

1. Introduction

이 포스는 딥 러닝을 이해하기 위한 다음과 같은 배경지식을 소개한다.

  • 딥 러닝에서 사용하는 데이터 셋의 형태 (Dataset)
  • 가정 (Hypothesis)
  • 비용함수 (or 손실함수, Cost Function or Loss Function)

2. Explanation

2.1 Dataset

머신러닝에서 사용하느 데이터 셋은 입력 ($X$)과 출력 ($Y$)으로 이루어져 있다.

입력은 같은 종류 특징을 가지는 원소들의 리스트이다.

$X$는 $x_1, x_2, ..., x_n$과 같이 표현되고 각각의 원소들은 특징에 대한 값을 가지고 있다. 예를 들어, 다음과 같이 원소들이 표현된다고 하자.

$$x_1 = [1, 2, 3]$$ $$x_2 = [2, 5, 8]$$ $$x_3 = [3, 6, 9]$$

이때 $X$는 다음과 같이 나타낼 수 있다. $$ X = \begin{bmatrix} 1 & 2 & 3 \\ 2 & 5 & 8 \\ 3 & 6& 9 \end{bmatrix}$$

$Y$는 $X$의 각 원소들의 결과 값에 대한 리스트이다. 즉, $y_1$은 $x_1$의 결과 값, $y_2$는 $x_2$의 결과 값이다.

$y_1$의 값이 11, $y_2$의 값이 22, $y_3$의 값이 34라 하면, $Y$는 다음과 같이 표현된다. $$ Y = [11, 22, 34]$$ 

다만, 결과 데이터 y의 경우, 학습 중간 결과 y와 헷갈리기 때문에 desire value라는 뜻으로 d로 쓰기도 한다.

2.2 Hypothesis

가정은 X와 Y가 어떤 관계를 가지는 지를 보이는 식이다.

예를 들어, 선형 회귀의 경우 일차식을 가정한다. 위의 경우를 다변수 선형회귀로 표현하면 다음과 같다.

$$y = ax_1 + bx_2 + cx_3 + d$$

일반적인 경우, 저렇게 쉽게 표현되기 어렵기 때문에, 행렬로 다음과 같이 표현한다.

$$Y = WX + b$$ (단, W는 weight, b는 bias)

2.3 Cost Function

비용함수는 현재 결과 (y)가 목표 결과 (d)와 얼마나 차이가 나는지를 표현하는 함수이다.

보통 오차-제곱 평균 (Mean-Squared Error, MSE) 또는 교차 엔트로피 (Cross Entropy)를 사용한다. 모델 학습의 진행은 이 비용함수의 결과 값을 0에 가깝게 만드는 W를 찾는 과정이다.

이 후에는 W를 한번에 찾는 Viener-Hopf 방정식, 점진적으로 W를 찾는 Gradient descent 방식을 포스팅한다.

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.