토큰화(2)
-
[NLP] NLTK 설치 및 세팅, NLTK를 이용하여 토큰화하기 [한국어 자연어처리]
[ 자연어처리 ] 해당 자료를 참고하여 작성하였습니다 https://wikidocs.net/21698 이번에는 KoNLPy가 아닌 NLTK를 이용하여 토큰화를 해보도록 하겠습니다 우선 NLTK를 사용하기전 설치를 먼저해줍니다 설치 pip를 이용하여 NLTK 를 설치하면 됩니다. pip install nltk 그 후 아래와 같은 코드를 입력하셔서 nltk의 데이터를 설치해주시면됩니다 import nltk nltk.download('treebank') 만약 treebank데이터가 아닌 다른 데이터를 설치하고 싶으실경우 아래와 같은 코드를 입력하시면 데이터를 설치할수있는 NLTK 다운로더가 나타납니다 여기서 원하시는 데이터를 설치해주시면 됩니다 import nltk nltk.download() 토큰화 from..
2021.06.28 -
[NLP] 텍스트 전처리 (Text Preprocessi) + 한국어 처리가 어려운 이유 [한국어 자연어처리]
[ 자연어처리 ] 해당 자료를 참고하여 작성하였습니다 https://wikidocs.net/21694 자연어처리를 하기전 텍스트 전처리작업은 무조건 무조건 거쳐야 하는 과정이라고 말할 수 있습니다. 제대로 정리되어있지 않은 텍스트를 가지고 자연어처리 기법을 사용할 경우, 제대로된 동작이 안될 수 있습니다. 저는 저만의 방법으로 한국어 자연어처리를 하겠습니다 제가 사용하는 방법은 아래와 같은 절차로 진행합니다. 토큰화(Tokenization) 불용어(Stopword) 정규 표현식 (Regular Expression) 정수 인코딩(Integer Encoding) 추가로 한국어 자연어처리가 여렵다고 생각하는 이유에 대해서 말해드리겠습니다 [ 한국어 자연어처리가 어려운 이유 ] 띄어쓰기가 지켜지지 않는다 한국어..
2021.06.28