[NLP] 텍스트 전처리 (Text Preprocessi) + 한국어 처리가 어려운 이유 [한국어 자연어처리]
[ 자연어처리 ] 해당 자료를 참고하여 작성하였습니다 https://wikidocs.net/21694 자연어처리를 하기전 텍스트 전처리작업은 무조건 무조건 거쳐야 하는 과정이라고 말할 수 있습니다. 제대로 정리되어있지 않은 텍스트를 가지고 자연어처리 기법을 사용할 경우, 제대로된 동작이 안될 수 있습니다. 저는 저만의 방법으로 한국어 자연어처리를 하겠습니다 제가 사용하는 방법은 아래와 같은 절차로 진행합니다. 토큰화(Tokenization) 불용어(Stopword) 정규 표현식 (Regular Expression) 정수 인코딩(Integer Encoding) 추가로 한국어 자연어처리가 여렵다고 생각하는 이유에 대해서 말해드리겠습니다 [ 한국어 자연어처리가 어려운 이유 ] 띄어쓰기가 지켜지지 않는다 한국어..
2021.06.28