Trial and Error/Python

파이썬 단어 빈도 계산하기

박한결 2020. 7. 26. 22:41

파이썬에서 엑셀 파일 불러오기

import pandas as pd
df = pd.read_excel(r'파일 경로')
print(df)

이렇게 파일을 불러오면

이런식으로 리스트가 쭉쭉쭉 나온다.

 

여기서 가장 빈도가 높게 나오는 단어들을 찾을거다.

 

plist = df.values.tolist()

이렇게하면 dataframe에서 list로 변환을 할 수 있다.

리스트로 변환을 하는 이유는... 나는 리스트를 사용하는 걸 좋아하기 때문이다...

 

그런데 위에서 보면 알겠지만 제목 옆에 1.0 이랑 NaN이라는 값이 있다.

저건 내 나름대로 필요해서 엑셀파일에 표시해놨지만 지금은 필요없다. 

그래서 저게 없는, 순수하게 제목만 있는 리스트를 만들었다.

 

title = []
for i in range(len(plist)):
	title.append(plist[i][0])

이렇게 하면 title만 있는 리스트가 만들어진다!

 

plist
title

 

 

 

이제 본격적으로 빈도 수를 체크해보자. 나는 한국어 단어 수를 세야하니까 한국어를 처리하기 위한 라이브러리가 따로 필요하다.

 

https://konlpy.org/en/latest/#license

 

KoNLPy: Korean NLP in Python — KoNLPy 0.5.2 documentation

KoNLPy: Korean NLP in Python KoNLPy (pronounced “ko en el PIE”) is a Python package for natural language processing (NLP) of the Korean language. For installation directions, see here. For users new to NLP, go to Getting started. For step-by-step instr

konlpy.org

여기 좋은 라이브러리가 있다! 한국어 자연어 처리를 위한 라이브러리

 

라이선스는 GPLv3로 

 

https://ko.wikipedia.org/wiki/GNU_%EC%9D%BC%EB%B0%98_%EA%B3%B5%EC%A4%91_%EC%82%AC%EC%9A%A9_%ED%97%88%EA%B0%80%EC%84%9C#GPLv3

 

GNU 일반 공중 사용 허가서 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. GPL은 여기로 연결됩니다. 다른 뜻에 대해서는 GPL (동음이의) 문서를 참조하십시오. GNU 일반 공중 사용 허가서(GNU General Public License, GNU GPL 또는 GPL)는 자유 소프��

ko.wikipedia.org

  1. 컴퓨터 프로그램을 어떠한 목적으로든지 사용할 수 있다. 다만 법으로 제한하는 행위는 할 수 없다.
  2. 컴퓨터 프로그램의 실행 복사본은 언제나 프로그램의 소스 코드와 함께 판매하거나 소스코드를 무료로 배포해야 한다.
  3. 컴퓨터 프로그램의 소스 코드를 용도에 따라 변경할 수 있다.
  4. 변경된 컴퓨터 프로그램 역시 프로그램의 소스 코드를 반드시 공개 배포해야 한다.
  5. 변경된 컴퓨터 프로그램 역시 반드시 똑같은 라이선스를 취해야 한다. 즉 GPL 라이선스를 적용해야 한다.

 

라이브러리 설치 방법은 여기 홈페이지에 나와있다.

https://konlpy.org/en/latest/install/#id2

 

Installation — KoNLPy 0.5.2 documentation

Ubuntu Supported: Xenial(16.04.3 LTS), Bionic(18.04.3 LTS), Disco(19.04), Eoan(19.10) Install dependencies # Install Java 1.8 or up $ sudo apt-get install g++ openjdk-8-jdk python3-dev python3-pip curl Install KoNLPy $ python3 -m pip install --upgrade pip

konlpy.org

윈도우를 사용하면서 항상 귀찮은건 환경 변수 설정이다.

왜 안깔리는지 삽질하고 있었는데 ..cp버전이 잘못됐었다.

 

konlpy잘 설치까지 했는데 막상 라이브러리가 import안된다면 혹시.. JAVAHOME을 제대로 설정했는지 꼭 확인하자..

나는 jdk안보이길래 새로 다운받아서 설치했는데 다시 찾아보니 있었다.. 숨긴 항목 보기도 꼭 체크해서 확인하자..