데이터전처리

Data

[자연어처리]파이썬으로 데이터전처리하기

1. 코퍼스수집 - 공개 데이터 사용(Kaggle 등 각종 대회용, 논문용 데이터) - 데이터 구매 - 데이터 크롤링 2. 정제 업무와 문제, 응용 분야 등 각 경우에 따라 필요한 정제의 수준이나 깊이가 다를 수 있다. 필요한 형태를 얻어낼 수 있는 정제 방법을 사용해야 한다. - 전각 문자 제거: 전각 문서를 일반적으로 사용되는 반각 문자로 전환 - 대소문자 통일: 다양한 표현의 일원화는 하나의 의미를 지니는 여러 단어를 하나의 형태로 통일해 희소성을 줄일 수 있음. 그러나 단어 임베딩을 통한 효율적인 표현이 가능해지면서 대소문자 통일과 같은 문제를 해결할 필요성이 줄어들었음 - 정규 표현식: 특수 문자 등의 노이즈 감지 및 제거 3. 분절 from nltk.tokenize import LineToke..

박한결
'데이터전처리' 태그의 글 목록