[NLP] 텍스트 전처리 (Text Preprocessi) + 한국어 처리가 어려운 이유 [한국어 자연어처리]

2021. 6. 28. 08:35자연어처리 (Natural Language Process)

반응형

[ 자연어처리 ]

 

해당 자료를 참고하여 작성하였습니다

https://wikidocs.net/21694

 

자연어처리를 하기전 텍스트 전처리작업은 무조건 무조건 거쳐야 하는 과정이라고 말할 수 있습니다. 제대로 정리되어있지 않은 텍스트를 가지고 자연어처리 기법을 사용할 경우, 제대로된 동작이 안될 수 있습니다.

 

저는 저만의 방법으로 한국어 자연어처리를 하겠습니다

제가 사용하는 방법은 아래와 같은 절차로 진행합니다.

 

  1. 토큰화(Tokenization)
  2. 불용어(Stopword)
  3. 정규 표현식 (Regular Expression)
  4. 정수 인코딩(Integer Encoding)

추가로 한국어 자연어처리가 여렵다고 생각하는 이유에 대해서 말해드리겠습니다

 

[ 한국어 자연어처리가 어려운 이유 ] 

 

띄어쓰기가 지켜지지 않는다

한국어는 띄어쓰기가 영어보다 잘 지켜지지 않습니다. 띄어쓰기만 잘해도 형태소 분석이 훨씬 수월하지만 적지않게 띄어쓰기가 종종 틀리는 경우가 있습니다. 그만큼 한글이 띄어쓰기가 잘 지켜지지않아도 쉽게 이해할수있다는 점을 알수있습니다

 

한국어 Ex) 띄어쓰기를하지않아도읽을수있습니다.

영어 Ex) Youcanreadwithoutspacing

 

교착어이다

예를 들어, 그(he/him)라는 주어나 목적어가 들어간 문장이 있다고 합시다. 이 경우, 그라는 단어 하나에도 '그가', '그에게', '그를', '그와', '그는'과 같이 다양한 조사가 '그'라는 글자 뒤에 띄어쓰기 없이 바로 붙게됩니다. 자연어 처리를 하다보면 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식이 되면 자연어 처리가 힘들고 번거로워지는 경우가 많습니다

반응형