원본 데이터(문자열) 부터 tf-idf까지 정리. 여기에서는 개념 그 자체보다도 내가 이해했을때 어떤 특징이 있고 각 개념별 어떤 차이가 있는지를 위주로 서술. 0. 단어의 표현 방법에는 크게 두가지가 있다. 국소 표현, 분산 표현이 각각인데.. - 국소 표현 : 단어 자체만 보고 단어를 표현 - 분산 표현 : 주변 값을 참고하여 단어를 표현 위와 같은 차이가 있고, 각각에 또 여러 방법이 있다. - 국소 표현 (one hot vector, N-gram, DTM(Bag of Words)) - 분산 표현 (word2Vec(FastText), LSA, Glove) 이 외에도 더 많을듯. 1. 정수 인코딩 원본 문자열의 예시는 다음과 같다. "키움 증권의 영웅문" 여기에서 명사만 추출한다면 키움, 증권, 영웅..