고졸 입니다만..

[NLP] NLTK 설치 및 세팅, NLTK를 이용하여 토큰화하기 [한국어 자연어처리]

2021. 6. 28. 08:36ㆍ자연어처리 (Natural Language Process)

[ 자연어처리 ]

해당 자료를 참고하여 작성하였습니다

https://wikidocs.net/21698

이번에는 KoNLPy가 아닌 NLTK를 이용하여 토큰화를 해보도록 하겠습니다

우선 NLTK를 사용하기전 설치를 먼저해줍니다

설치

pip를 이용하여 NLTK 를 설치하면 됩니다.

pip install nltk

그 후 아래와 같은 코드를 입력하셔서 nltk의 데이터를 설치해주시면됩니다

import nltk
nltk.download('treebank')

만약 treebank데이터가 아닌 다른 데이터를 설치하고 싶으실경우 아래와 같은 코드를 입력하시면 데이터를 설치할수있는 NLTK 다운로더가 나타납니다 여기서 원하시는 데이터를 설치해주시면 됩니다

import nltk
nltk.download()

토큰화

from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize

text = "NLTK는 Natural Language Toolkit의 줄임말입니다. Python 프로그래밍 언어로 작성된 영어의 기호 및 통계 자연 언어 처리를위한 라이브러리 및 프로그램 모음입니다"

word_tokens = word_tokenize(text)
sent_tokens = sent_tokenize(text)

print(word_tokens)
print(sent_tokens)

['NLTK는', 'Natural', 'Language', 'Toolkit의', '줄임말이다', '.', 'Python', '프로그래밍', '언어로', '작성된', '영어의', '기호', '및', '통계', '자연', '언어', '처리를위한', '라이브러리', '및', '프로그램', '모음입니다']

['NLTK는 Natural Language Toolkit의 줄임말이다.', 'Python 프로그래밍 언어로 작성된 영어의 기호 및 통계 자연 언어 처리를위한 라이브러리 및 프로그램 모음입니다']

sent_tokenize(text )

텍스트에서 문단별로 키워드를 반환한다

word_tokenize(text )

텍스트에서 어절별로 키워드를 반환한다

저작자표시 비영리 변경금지 (새창열림)

'자연어처리 (Natural Language Process)' 카테고리의 다른 글

[NLP] 정수 인코딩(Integer Encoding) [한국어 자연어처리] (0)	2021.06.28
[NLP] 한국어/영어 불용어(Stopword) 제거하기 (+ 한국어 불용어 리스트) [한국어 자연어처리] (3)	2021.06.28
[NLP] KoNLPy 이용하여 한국어 토큰화, 형태소 분석하기 및 클래스간품사 태그 비교표 [한국어 자연어처리] (2)	2021.06.28
[NLP] 한국어형태소 분석 KoNLPy 설치 및 세팅 [한국어 자연어처리] (0)	2021.06.28
[NLP] 텍스트 전처리 (Text Preprocessi) + 한국어 처리가 어려운 이유 [한국어 자연어처리] (0)	2021.06.28

고졸 입니다만..

고졸 입니다만..

태그

최근글

댓글

공지사항

아카이브

'자연어처리 (Natural Language Process)' 카테고리의 다른 글

관련글

티스토리툴바