본문 바로가기

IT+프로그래밍 - 웹서버 구축

[자연어분석]Python에서 NLTK 설치 및 연어(collocation 기능) 사용

NTLK는 Natural Language Toolkit이라는 python 언어의 자연어 분석 라이브러리이다.

한국어 자연어 분석을 위해서 이미 konlpy를 깔았지만, 분석을 해보니 결과가..

데이터 분석 결과

내가 원하는 의미단위가 아니고, 단어중심으로 쪼개져 있어서,

선처리든 후처리든 더해야만 더 필요한 통계처리가 가능할 듯 보여서, 

konlpy사이트의 연어(cololocation) 찾기 예제의 일부 기능을 도입해서 테스트를 해보고자 한다.

(https://konlpy-ko.readthedocs.io/ko/v0.4.3/examples/collocations/) 코드 페이지

이미 KoNLPy를 위한 준비조건 python, java 1.8SDK, jPype1, konlpy는 설치 완료~!!(이 부분은 필요하면 다시 한번 정리하겠다. python 버전이 여러개인 경우 쓸수 있는 라이브러리와 설치해야 되는 버전이 나누어져 있었다.)

연음에 필요한 NLTK만 설치하고 바로 진행해 보려한다. 

위 그림의 NLTK를 클릭하면, http://www.nltk.org/으로 연결이 된다. 

오른쪽 TOC(table of contents)의 Installing NLTK를 클릭하면, 

NLTK 설치 페이지

OS별로 설치페이지가 나온다.  윈도우로 내려가면 파이썬 설치하고, 

pip install nltk를 누르라고 나온다. 

Python이 설치되었고, 시스템 변수에 등록이 된 상태라면

cmd 창에서 그냥 pip install nltk를 타이핑하면 설치완료.

finder = collocations.BigramCollocationFinder.from_words(tagged_word)
finder.apply_word_filter(lambda w: len(w) < 3)

두 명령어를 통해서 Komoran 라이브러리로 쪼개진 

단어들을 2자 연음된 것을 찾고, 그 길이가 3자 이상인 것으로 한정했다. 

연음 2단어 / 3자 이상 조건

나름 성공적이다. 전체 단어가 한자가 들어간 것들은 노출되지 않았다. 

이런 형태로 분석할 수 있는 것들을 더 찾아봐야겠다.