1. Introduction 원 핫 인코딩은 아래와 같이 데이터 벡터를 벡터의 각 값을 column labeling하고 해당 값을 1로 표시하는 방식의 행렬로 인코딩하는 방법이다. 당연히 해당 값 외의 다른 column에 대해서는 해당하지 않으므로 0으로 채워진다. 웃긴것은 N 크기의 벡터를 N x N의 크기의 행렬로 인코딩한다는 것이다. 혼란스러운가? 필자도 그렇다. 처음 배울때 이게 대체 뭐하는 짓인가 싶었다. 차원의 저주라는 말도 있듯, 사소한 차원 증가가 엄청난 시간적 손해를 가져올 수 있다. 근데 이걸 N배로 늘린다고?? 하지만 이 방식은 겉으로 느껴지는 시간, 공간적인 복잡도를 포기하는 대신의 또 다른 편의성을 가져다 준다. 이는 특히, 거대한 단어 집합을 표현할 때 특히 편한데, 사전 (pr..
One-hot encoding (원 핫 인코딩)
1. Introduction 원 핫 인코딩은 아래와 같이 데이터 벡터를 벡터의 각 값을 column labeling하고 해당 값을 1로 표시하는 방식의 행렬로 인코딩하는 방법이다. 당연히 해당 값 외의 다른 column에 대해서는 해당하지 않으므로 0으로 채워진다. 웃긴것은 N 크기의 벡터를 N x N의 크기의 행렬로 인코딩한다는 것이다. 혼란스러운가? 필자도 그렇다. 처음 배울때 이게 대체 뭐하는 짓인가 싶었다. 차원의 저주라는 말도 있듯, 사소한 차원 증가가 엄청난 시간적 손해를 가져올 수 있다. 근데 이걸 N배로 늘린다고?? 하지만 이 방식은 겉으로 느껴지는 시간, 공간적인 복잡도를 포기하는 대신의 또 다른 편의성을 가져다 준다. 이는 특히, 거대한 단어 집합을 표현할 때 특히 편한데, 사전 (pr..
2020.05.18