Trial and Error/Python

파이썬 konlpy이용해서 명사 빈도 수 세기

박한결 2020. 7. 27. 16:23

어렵지 않다. 진짜..

 

import pandas as pd
from konlpy.tag import Okt

검색하면 꽤 많이 나오는 Twitter가 5.0버전부터 Okt로 바뀌었다고 한다.

 

f = open('title.txt', 'rt', encoding='UTF8')
lines = f.read()
f.close()

파일은 열면 닫는 습관을 갖는게 좋다고 누군가가 말했다. 기억은 안난다.

 

split = Okt()
nouns = split.nouns(lines)

이렇게 하면 title.txt파일에서 읽어온 문장들의 명사만 남게 된다.

 

word_list = []
for n in nouns:
    if len(n)>=2:
        word_list.append(n)

한글자 짜리는 핵심적인 키워드로 사용하기도 힘들고 대부분 '두', '의'같은 접미사들이기 때문에 제외했다.

words = pd.Series(word_list)
result = words.value_counts().head(20)

이제 결과만 출력하면 끝.