어렵지 않다. 진짜..
import pandas as pd
from konlpy.tag import Okt
검색하면 꽤 많이 나오는 Twitter가 5.0버전부터 Okt로 바뀌었다고 한다.
f = open('title.txt', 'rt', encoding='UTF8')
lines = f.read()
f.close()
파일은 열면 닫는 습관을 갖는게 좋다고 누군가가 말했다. 기억은 안난다.
split = Okt()
nouns = split.nouns(lines)
이렇게 하면 title.txt파일에서 읽어온 문장들의 명사만 남게 된다.
word_list = []
for n in nouns:
if len(n)>=2:
word_list.append(n)
한글자 짜리는 핵심적인 키워드로 사용하기도 힘들고 대부분 '두', '의'같은 접미사들이기 때문에 제외했다.
words = pd.Series(word_list)
result = words.value_counts().head(20)
이제 결과만 출력하면 끝.
'Trial and Error > Python' 카테고리의 다른 글
주피터 노트북에 아나콘다 가상환경 추가하기 (0) | 2020.07.27 |
---|---|
konlpy DLL load failed 설치 오류 (1) | 2020.07.27 |
파이썬 비트 확인하는 법 (0) | 2020.07.27 |
파이썬 단어 빈도 계산하기 (0) | 2020.07.26 |