[NLP] 정수 인코딩(Integer Encoding) [한국어 자연어처리]
[ 자연어 처리 ] 해당 자료를 참고하여 재작성하였습니다 wikidocs.net/31766 이번 포스팅은 단어에 정수 인덱스를 부여해주는 [정수 인코딩] 작업을 에 대해 포스팅을 하도록 하겠습니다 단어에 정수를 부여하는 경우는 아래 등과 같은 경우가 있습니다 - 단어의 빈도수를 확인할때 - 단어의 빈도수 순으로 차례로 낮은 숫자부터 부여할때 정제 & 토큰화 우선 작업전 토큰화와 불용어들을 제거를 통해 불필요한 텍스트를 제거 해줍니다. [불용어 리스트는 https://mr-doosun.tistory.com/24 링크에 리스트를 사용하였습니다] from eunjeon import Mecab from nltk.tokenize import word_tokenize mecab = Mecab() # 형태소 분석기 ..
2021.06.28