Trial and Error/Python
파이썬 konlpy이용해서 명사 빈도 수 세기
박한결
2020. 7. 27. 16:23
어렵지 않다. 진짜..
import pandas as pd
from konlpy.tag import Okt
검색하면 꽤 많이 나오는 Twitter가 5.0버전부터 Okt로 바뀌었다고 한다.
f = open('title.txt', 'rt', encoding='UTF8')
lines = f.read()
f.close()
파일은 열면 닫는 습관을 갖는게 좋다고 누군가가 말했다. 기억은 안난다.
split = Okt()
nouns = split.nouns(lines)
이렇게 하면 title.txt파일에서 읽어온 문장들의 명사만 남게 된다.
word_list = []
for n in nouns:
if len(n)>=2:
word_list.append(n)
한글자 짜리는 핵심적인 키워드로 사용하기도 힘들고 대부분 '두', '의'같은 접미사들이기 때문에 제외했다.
words = pd.Series(word_list)
result = words.value_counts().head(20)
이제 결과만 출력하면 끝.