정수인코딩(2)
-
[NLP] 정수 인코딩(Integer Encoding) [한국어 자연어처리]
[ 자연어 처리 ] 해당 자료를 참고하여 재작성하였습니다 wikidocs.net/31766 이번 포스팅은 단어에 정수 인덱스를 부여해주는 [정수 인코딩] 작업을 에 대해 포스팅을 하도록 하겠습니다 단어에 정수를 부여하는 경우는 아래 등과 같은 경우가 있습니다 - 단어의 빈도수를 확인할때 - 단어의 빈도수 순으로 차례로 낮은 숫자부터 부여할때 정제 & 토큰화 우선 작업전 토큰화와 불용어들을 제거를 통해 불필요한 텍스트를 제거 해줍니다. [불용어 리스트는 https://mr-doosun.tistory.com/24 링크에 리스트를 사용하였습니다] from eunjeon import Mecab from nltk.tokenize import word_tokenize mecab = Mecab() # 형태소 분석기 ..
2021.06.28 -
[NLP] 텍스트 전처리 (Text Preprocessi) + 한국어 처리가 어려운 이유 [한국어 자연어처리]
[ 자연어처리 ] 해당 자료를 참고하여 작성하였습니다 https://wikidocs.net/21694 자연어처리를 하기전 텍스트 전처리작업은 무조건 무조건 거쳐야 하는 과정이라고 말할 수 있습니다. 제대로 정리되어있지 않은 텍스트를 가지고 자연어처리 기법을 사용할 경우, 제대로된 동작이 안될 수 있습니다. 저는 저만의 방법으로 한국어 자연어처리를 하겠습니다 제가 사용하는 방법은 아래와 같은 절차로 진행합니다. 토큰화(Tokenization) 불용어(Stopword) 정규 표현식 (Regular Expression) 정수 인코딩(Integer Encoding) 추가로 한국어 자연어처리가 여렵다고 생각하는 이유에 대해서 말해드리겠습니다 [ 한국어 자연어처리가 어려운 이유 ] 띄어쓰기가 지켜지지 않는다 한국어..
2021.06.28