NTLK는 Natural Language Toolkit이라는 python 언어의 자연어 분석 라이브러리이다.
한국어 자연어 분석을 위해서 이미 konlpy를 깔았지만, 분석을 해보니 결과가..
내가 원하는 의미단위가 아니고, 단어중심으로 쪼개져 있어서,
선처리든 후처리든 더해야만 더 필요한 통계처리가 가능할 듯 보여서,
konlpy사이트의 연어(cololocation) 찾기 예제의 일부 기능을 도입해서 테스트를 해보고자 한다.
(https://konlpy-ko.readthedocs.io/ko/v0.4.3/examples/collocations/) 코드 페이지
이미 KoNLPy를 위한 준비조건 python, java 1.8SDK, jPype1, konlpy는 설치 완료~!!(이 부분은 필요하면 다시 한번 정리하겠다. python 버전이 여러개인 경우 쓸수 있는 라이브러리와 설치해야 되는 버전이 나누어져 있었다.)
연음에 필요한 NLTK만 설치하고 바로 진행해 보려한다.
위 그림의 NLTK를 클릭하면, http://www.nltk.org/으로 연결이 된다.
오른쪽 TOC(table of contents)의 Installing NLTK를 클릭하면,
OS별로 설치페이지가 나온다. 윈도우로 내려가면 파이썬 설치하고,
pip install nltk를 누르라고 나온다.
Python이 설치되었고, 시스템 변수에 등록이 된 상태라면
cmd 창에서 그냥 pip install nltk를 타이핑하면 설치완료.
finder = collocations.BigramCollocationFinder.from_words(tagged_word)
finder.apply_word_filter(lambda w: len(w) < 3)
두 명령어를 통해서 Komoran 라이브러리로 쪼개진
단어들을 2자 연음된 것을 찾고, 그 길이가 3자 이상인 것으로 한정했다.
나름 성공적이다. 전체 단어가 한자가 들어간 것들은 노출되지 않았다.
이런 형태로 분석할 수 있는 것들을 더 찾아봐야겠다.
'IT+프로그래밍 - 웹서버 구축' 카테고리의 다른 글
[개발환경]Windows10에서 ubuntu 설치 및 사용 (0) | 2020.01.30 |
---|---|
[챗봇]카카오 아이오픈빌더 - 학습중(레퍼런스 정리) (0) | 2020.01.29 |
[aws]ubuntu에 apache 기본 경로 변경해서 내 웹사이트 구축 기초 만들기 (0) | 2020.01.18 |
[aws]putty를 통한 접속 후 apatch 설치 (0) | 2020.01.15 |
[git ]로컬 저장소와 github 연동하기 (0) | 2020.01.12 |