Data

Data

[Kaggle/EDA]House Prices - Advanced Regression Techniques

▶ [Kaggle]House Prices Competition으로 이동 캐글의 입문 문제인 House Prices 데이터로 EDA를 해봤습니다. 1. 데이터 탐색 (1) 데이터 기본 속성 - 81개의 변수와 1460개의 관측치로 구성되었습니다. - ‘SalePrice’는 종속 변수로 보이며, 단위는 달러로 추정됩니다. (2) 결측치 19개의 변수에 결측 값이 있습니다. 대부분의 경우 NA는 Alley, BsmtQual, FireplaceQu와 같이 해당 변수가 존재하지 않음을 의미합니다. 변수 이름 내용 타입 결측 개수(%) Alley Type of alley access to property 범주형(명목) 1369 (94%) MasVnrType Masonry veneer type 범주형(명목) 8(0...

Data

데이터 기반 의사 결정(data driven decision making)

1. 데이터 기반 의사 결정(data driven decision making)이란? Data: A collection of facts Data-driven decision-making: The process of using facts to guide business strategy - Source: Google 비즈니스 전략을 이끌어내기 위해 사실(데이터)를 사용하는 것이다. 2. 데이터 기반 의사 결정(data driven decision making) 과정 비즈니스 요구사항, 즉 해결해야 할 문제를 파악한다. 데이터를 찾고(준비하고 처리하기), 분석하고 이를 사용해서 추세, 패턴 및 관계를 파악한다. 데이터를 공유한다. 데이터 분석 결과를 사용한다. 3. 주의할 점 데이터 기반의 의사 결정이 아무리..

Data

이상 탐지 기법

1️⃣ 이상 탐지(anomaly detection) 개념 '이상'은 '정상'의 반대 개념이며 개념 정의를 위해서는 '정상'에 대한 개념부터 정의해야 한다. '정상'에 대한 개념은 각 분야 및 문제마다 다르게 정의될 수 있기 때문에 '이상'에 대한 개념 역시 다르게 정의될 수 있다. '이상'은 자료에서 예상과는 다른 패턴을 보이는 개체 또는 자료를 뜻한다. '예상 탐지' 기법은 자료에서 예상과는 다른, 예상 가능하거나 '정상'으로 정의된 것과 다른 패턴을 식별하는 기법이다. 입력 자료는 자료 개체(instance)들의 집합이고, 각 객체는 하나 이상의 속성 또는 변수(attribute)들로 표현된다. 이상 탐지 기법은 관측 값의 집합에서 주변의 다른 자료 개체로부터 현저하게 벗어나는 여러 관측 값을 식별한..

Data

빅데이터의 정의와 데이터 수집, 저장

✅ 빅데이터의 정의 빅데이터를 이론으로 공부하면 주로 3V(Volume, Velocity, Variety)라 정의한다. 이는 각각 규모의 증가, 다양성, 처리 속도를 뜻한다. - 규모의 증가(Volume): 기존 데이터 수집, 관리, 처리 소프트웨어의 한계를 넘어선다. - 처리 속도(Velocity): 데이터의 양과 내용이 끊임없이 변화(실시간성 정보가 증가)함에 따라 대규모 데이터의 빠른 처리, 분석이 요구된다. - 다양성(Variety): 비정형 데이터의 종류가 다양해진다. 여기서 규모의 증가에 집중해서, '기존 소프트웨어의 한계를 넘어섰다'의 기존 소프트웨어는 MySQL, Orcale과 같은 관계형데이터베이스를 의마한다. 이러한 소프트웨어는 대부분 분산환경이 아닌 서버 한 대만을 염두에 두고 만들어..

Data

이미지 데이터가 부족할 때 생기는 문제(과적합; Over-fitting) 완화 방안

이미지 데이터가 부족하다는 건, 모델이 제공받는 정보 중 훈련 데이터에서 얻을 수 있는 정보의 양이 제한적이라는 거다. 이럴 때는 모델의 성능을 보장하기 위해 더 많은 선험적 정보를 필요로 하게 된다. 선험적 정보를 모델 상에서 활용하기 위한 방법에는 위와 같은 것들이 있다. 본론으로 돌아와서 이미지 데이터가 부족하면 과적합 문제가 발생하게 된다. 과적합 문제란 훈련 데이터 상에서는 좋은 성능을 보이지만, 테스트 데이터에서는 그와 같은 성능이 나오지 못하는 문제라고 할 수 있다. 해결 방안에는 모델에 기반을 둔 방법과 데이터에 기반을 둔 방법이 있다. 데이터 확장의 예시로 SMOTE, GANs, 전이학습의 세가지를 들었다. 1. SMOTE란 무엇인가(링크)? - SMOTE는 업샘플링 기법이다. - 불균형..

Data

[자연어처리]파이썬으로 데이터전처리하기

1. 코퍼스수집 - 공개 데이터 사용(Kaggle 등 각종 대회용, 논문용 데이터) - 데이터 구매 - 데이터 크롤링 2. 정제 업무와 문제, 응용 분야 등 각 경우에 따라 필요한 정제의 수준이나 깊이가 다를 수 있다. 필요한 형태를 얻어낼 수 있는 정제 방법을 사용해야 한다. - 전각 문자 제거: 전각 문서를 일반적으로 사용되는 반각 문자로 전환 - 대소문자 통일: 다양한 표현의 일원화는 하나의 의미를 지니는 여러 단어를 하나의 형태로 통일해 희소성을 줄일 수 있음. 그러나 단어 임베딩을 통한 효율적인 표현이 가능해지면서 대소문자 통일과 같은 문제를 해결할 필요성이 줄어들었음 - 정규 표현식: 특수 문자 등의 노이즈 감지 및 제거 3. 분절 from nltk.tokenize import LineToke..

Data

[피처엔지니어링]Word2Vec

✨Word2Vec이란? Word2vec is a group of related models that are used to produce word embeddings. These models are shallow, two-layer neural networks that are trained to reconstruct linguistic contexts of words. Word2vec takes as its input a large corpus of text and produces a vector space, typically of several hundred dimensions, with each unique word in the corpus being assigned a corresponding vec..

Data

[피처 엔지니어링/텍스트 마이닝]텍스트 표현 모델

1. 텍스트 마이닝 Text mining, also known as text data mining, is the process of transforming unstructured text into a structured format to identify meaningful patterns and new insights. By applying advanced analytical techniques, such as Naïve Bayes, Support Vector Machines (SVM), and other deep learning algorithms, companies are able to explore and discover hidden relationships within their unstructu..

Data

[피처 엔지니어링]피처 정규화

1. 피처 엔지니어링(Feature Engineering)이란? "Feature engineering is the process of using domain knowledge to extract features from raw data via data mining techniques. These features can be used to improve the performance of machine learning algorithms."[1] 피처 엔지니어링은 최초 데이터(raw data)를 데이터 마이닝 기법을 통해 피처로 만들어서 머신 러닝 알고리즘의 성능을 향상시키는 일련의 과정이다. "The purpose of a feature, other than being an attribute, would ..

Data

[자연어처리]파이썬에서 워드, PDF, RSS 읽고 말뭉치(corpus) 생성하기

1. 라이브러리 설치하기 # docx pip install python-docx # pdf pip install pypdf2 # rss pip install feedparser # corpus # nltk 설치 후 www.nltk.org/data.html에서 데이터를 다운로드 할 것 pip install nltk 2. 워드 읽기 import docx def read_docx(filename): file = docx.Document(filename) content = [] for p in file.paragraphs: content.append(p.text) # print('단락 스타일:', p.style) # print('단락 수:', len(file.paragraphs)) return '\n'.join..

박한결
'Data' 카테고리의 글 목록