이미지 데이터가 부족하다는 건, 모델이 제공받는 정보 중 훈련 데이터에서 얻을 수 있는 정보의 양이 제한적이라는 거다. 이럴 때는 모델의 성능을 보장하기 위해 더 많은 선험적 정보를 필요로 하게 된다.
선험적 정보를 모델 상에서 활용하기 위한 방법에는 위와 같은 것들이 있다.
본론으로 돌아와서 이미지 데이터가 부족하면 과적합 문제가 발생하게 된다. 과적합 문제란 훈련 데이터 상에서는 좋은 성능을 보이지만, 테스트 데이터에서는 그와 같은 성능이 나오지 못하는 문제라고 할 수 있다.
해결 방안에는 모델에 기반을 둔 방법과 데이터에 기반을 둔 방법이 있다.
데이터 확장의 예시로 SMOTE, GANs, 전이학습의 세가지를 들었다.
1. SMOTE란 무엇인가(링크)?
- SMOTE는 업샘플링 기법이다.
- 불균형 데이터 세트를 해결하는 한 가지 접근 방식은 소수 클래스를 오버 샘플링하는 것이다.
2. GANs란 무엇인가?
- Generative Adversarial Networks
- 생성적 적대 신경망
- 새로운 샘플 추가
3. 전이학습(Transfer Leraning)
- 기존에 존재하는 모델이나 데이터를 빌려옴
- 문제를 처음부터 모델링하지 않고, 대규모 데이터를 통해 훈련된 모델을 이용해 소규모 데이터상에서 파인 튜닝만 진행
'Data' 카테고리의 다른 글
이상 탐지 기법 (0) | 2021.04.12 |
---|---|
빅데이터의 정의와 데이터 수집, 저장 (0) | 2021.04.11 |
[자연어처리]파이썬으로 데이터전처리하기 (0) | 2021.03.30 |
[피처엔지니어링]Word2Vec (0) | 2021.03.28 |
[피처 엔지니어링/텍스트 마이닝]텍스트 표현 모델 (0) | 2021.03.27 |