파이썬에서 엑셀 파일 불러오기
import pandas as pd
df = pd.read_excel(r'파일 경로')
print(df)
이렇게 파일을 불러오면
이런식으로 리스트가 쭉쭉쭉 나온다.
여기서 가장 빈도가 높게 나오는 단어들을 찾을거다.
plist = df.values.tolist()
이렇게하면 dataframe에서 list로 변환을 할 수 있다.
리스트로 변환을 하는 이유는... 나는 리스트를 사용하는 걸 좋아하기 때문이다...
그런데 위에서 보면 알겠지만 제목 옆에 1.0 이랑 NaN이라는 값이 있다.
저건 내 나름대로 필요해서 엑셀파일에 표시해놨지만 지금은 필요없다.
그래서 저게 없는, 순수하게 제목만 있는 리스트를 만들었다.
title = []
for i in range(len(plist)):
title.append(plist[i][0])
이렇게 하면 title만 있는 리스트가 만들어진다!
이제 본격적으로 빈도 수를 체크해보자. 나는 한국어 단어 수를 세야하니까 한국어를 처리하기 위한 라이브러리가 따로 필요하다.
https://konlpy.org/en/latest/#license
여기 좋은 라이브러리가 있다! 한국어 자연어 처리를 위한 라이브러리
라이선스는 GPLv3로
- 컴퓨터 프로그램을 어떠한 목적으로든지 사용할 수 있다. 다만 법으로 제한하는 행위는 할 수 없다.
- 컴퓨터 프로그램의 실행 복사본은 언제나 프로그램의 소스 코드와 함께 판매하거나 소스코드를 무료로 배포해야 한다.
- 컴퓨터 프로그램의 소스 코드를 용도에 따라 변경할 수 있다.
- 변경된 컴퓨터 프로그램 역시 프로그램의 소스 코드를 반드시 공개 배포해야 한다.
- 변경된 컴퓨터 프로그램 역시 반드시 똑같은 라이선스를 취해야 한다. 즉 GPL 라이선스를 적용해야 한다.
라이브러리 설치 방법은 여기 홈페이지에 나와있다.
https://konlpy.org/en/latest/install/#id2
윈도우를 사용하면서 항상 귀찮은건 환경 변수 설정이다.
왜 안깔리는지 삽질하고 있었는데 ..cp버전이 잘못됐었다.
konlpy잘 설치까지 했는데 막상 라이브러리가 import안된다면 혹시.. JAVAHOME을 제대로 설정했는지 꼭 확인하자..
나는 jdk안보이길래 새로 다운받아서 설치했는데 다시 찾아보니 있었다.. 숨긴 항목 보기도 꼭 체크해서 확인하자..
'Trial and Error > Python' 카테고리의 다른 글
파이썬 konlpy이용해서 명사 빈도 수 세기 (0) | 2020.07.27 |
---|---|
주피터 노트북에 아나콘다 가상환경 추가하기 (0) | 2020.07.27 |
konlpy DLL load failed 설치 오류 (1) | 2020.07.27 |
파이썬 비트 확인하는 법 (0) | 2020.07.27 |