1️⃣ 이상 탐지(anomaly detection) 개념
'이상'은 '정상'의 반대 개념이며 개념 정의를 위해서는 '정상'에 대한 개념부터 정의해야 한다. '정상'에 대한 개념은 각 분야 및 문제마다 다르게 정의될 수 있기 때문에 '이상'에 대한 개념 역시 다르게 정의될 수 있다.
'이상'은 자료에서 예상과는 다른 패턴을 보이는 개체 또는 자료를 뜻한다. '예상 탐지' 기법은 자료에서 예상과는 다른, 예상 가능하거나 '정상'으로 정의된 것과 다른 패턴을 식별하는 기법이다.
입력 자료는 자료 개체(instance)들의 집합이고, 각 객체는 하나 이상의 속성 또는 변수(attribute)들로 표현된다. 이상 탐지 기법은 관측 값의 집합에서 주변의 다른 자료 개체로부터 현저하게 벗어나는 여러 관측 값을 식별한다.
현저하게 벗어나는 경우에 대한 수학적 정의는 여러가지지만, 많은 경우에 데이터셋의 각 자료 개체가 얼마나 비정상적인지를 나타내는 이상 점수를 계산한다. 이상 점수에 기초한 탐지 알고리즘은 이상 점수에 임의 임계치를 적용해 각 관측치의 이상 여부를 판별한다.
2️⃣ 이상 탐지 활용
- 신용카드 사기, 사이버 침입, 테러 등 악의적 행동
- 장비 결함 등 시스템 고장
- 심전도에서 비정상적인 심장 박동 등 비정상적인 상황
- 침입 탐지, 군사적 감시
- 안전 필수 시스템
3️⃣ 시간 자료 내 이상 탐지 문제의 특수한 성질
시간을 맥락적 변수로 보았을 때, 시간 자료 내 이상 탐지 문제의 특수한 성질은 다음과 같다.
- 시간 자료에는 시간의 연속성이 존재하여 특정 시점이 그 시점 전, 후의 값에 크게 영향을 받는다. 일반적으로 시간의 작은 창(window)을 적절히 선택하여 분석을 진행한다. 반면에 일반적인 자료에서는 시간적 특성에 영향을 받지 않기 때문에 개체들의 독립성을 가정하고 데이터마이닝/머신러닝 방법을 사용하여 이상값을 탐지한다.
- 시간 자료에서 비정상적인 시점을 찾는 것을 목표로 하느냐, 비정상적인 변화의 패턴을 찾는 것을 목표로 하느냐에 따라 분류된다.
- 시간 자료라도 연속형, 이산형, 고차원 스트림 혹은 네트워크와 같은 자료 성질에 따라 서로 다른 분석 기법이 필요하다.
- 과거 자료의 이상값에 대한 라벨이 이용 가능한지의 여부에 따라 비지도 vs. 지도 방법으로 분류된다.
4️⃣ 이상의 종류
- 점 이상(point anormalies): 자료 내 하나의 개체가 나머지에 비해 이상하다고 판단되는 경우
- 맥락적 이상(contextual anormalies): 자료 내 개체가 특정 맥락에서 이상하다고 판단되는 경우
맥락적 이상은 시간 자료와 공간 자료에서 가장 흔하다. 예를 들어 겨울에 기온이 30도인것은 이상하지만, 여름에 30도인 것은 정상이다. 마찬가지로 남극 기온이 50도라면 이상하지만, 사하라 사막 기온이 50도라면 납득할 수 있다.
- 집단 이상(collective anormalies): 자료 내 개별 개체는 정상일 수 있지만, 여러 개체를 동시에 고려했을 때 이상으로 판별되는 개체의 집합을 말한다
5️⃣ 이상 탐지 기법의 종류
위에서 라벨이 이용 가능한지의 여부에 따라 비지도 vs. 지도 방법으로 분류된다고 했다. 라벨은 자료 개체의 이상 여부를 뜻한다. 전체 데이터셋에 정확히 라벨링을 하는 것은 엄청난 노력과 비용이 발생한다. 따라서 라벨 정보가 없는 자료를 다룰 필요가 있고 그 정도에 따라 세가지로 나눌 수 있다.
여기서는 비지도 학습, 지도 학습, 준지도 학습 외에도 규칙 기반 기법도 같이 설명하겠다.
- 비지도 학습 기법 :
라벨이 없는 데이터셋에서 사용하는 이상 탐지 기법으로 가장 널리 쓰일 수 있는 기법이다. 주로 데이터 내 개체들 간의 거리를 기반으로 이상값을 탐지한다. 일반적으로 정상의 비율이 압도적으로 크다는 가정을 하고 진행하며, 이 가정이 틀렸을 경우 높은 오경보율(false alarm rate)과 같은 문제가 발생한다.
단일값 또는 시계열 데이터의 이상치 분석에서 사용되는 간단한 방식은 Z-score를 계산하는 것이다. 일반적으로 Z-score 절대값이 3 이상인 개체를 이상 수치로 간주한다. 하지만 위에서 언급했던 것처럼, 정상의 비율이 압도적으로 크다는 가정이 무너졌을 때 Z-score를 계산할 때 사용하는 평균과 표준 편차에 이상치가 강한 영향을 줘 문제가 발생할 수 있다. 이런 경우에는 중앙값 절대 편차(MAD)를 사용한다. Z-score 식에서 평균을 중앙값으로, 표준 편차를 MAD로 대체해 Modified Z-score를 계산할 수 있고, 이렇게 구한 ZMAD가 3.5를 넘으면 이상 수치로 간주한다.
시계열 데이터를 하나의 확률 과정으로 모델링 하는 예측 기반 기법도 있다. 이 기법은 잘 알려진 시계열 모델인 MA, AR, ARIMA 등을 사용한다. 이러한 시계열 모델들은 보통 시계열 데이터셋의 미래 예측에 사용된다.
데이터가 단일값이 아닌(단일 변수의 시계열 형식이 아닌 순서 정보가 없는) 경우 군집화(Clustering) 알고리즘을 사용한다. 군집화 알고리즘은 데이터를 군집으로 묶은 후 해당 군집(또는 모든 군집)의 중심점과 멀리 떨어진 데이터 포인트를 이상 데이터로 간주한다. 일반적인 군집화 분석에서는 K-means clustering이 널리 사용되지만, 이 알고리즘은 이상치에 민감해 이상 탐지에 사용하기 힘들다. 따라서 K-medoids 또는 Partition Around Medoids, K-nearest neighbors 알고리즘을 주로 사용한다. K-medoids 또는 PAM 알고리즘은 군집의 중심점을 평균점 대신 대표점으로 선택한다. K-nearest neighbors 알고리즘은 이웃의 개수가 특정 임계치 이하인 데이터 포인트를 이상 데이터로 간주한다.
이 외에도 지역 밀도의 개념을 사용하는 Local Outlier Factor 알고리즘도 널리 사용된다고 한다.
- 지도 학습 기법 :
훈련 데이터의 모든 개체에 라벨이 있을 때 쓰는 방법이다. 정상 또는 이상을 판단하는 분류 모형을 학습시키는 것이 가장 일반적인 접근 방법이고, 보통 자료가 정상에 비해 이상의 비율이 매우 적은 불균형한 상태에 있고 정확한 분류가 어렵다.
정상/이상 클래스의 비율(분포)이 균등하다면 비지도 학습이나 규칙 기반 방법보다 더 좋은 성능을 낼 수도 있지만, 위에서 언급했던 것처럼 충분한 훈련 데이터가 부족하고 비율도 균등하지 않다. 따라서 실무에서 적용하기 힘들다.
* 샘플링:
위에서 클래스의 비율이 불균등해 실무에서 적용하기 힘들다고 했다. 사실 이러한 불균등 문제는 이진분류(양성/음성, 정상/이상) 모델에서 흔하다.
그런데 이러한 불균등한 데이터셋으로 훈련할 때 모델에서 문제가 생기는데, 왜 문제가 생기는 걸까? 모델 훈련 시 최적화하는 목적함수와 테스트 시 사용하는 평가 지표가 불일치하기 때문이다. 이러한 불일치는 훈련 데이터의 샘플 분포와 테스트 시 기대하는 샘플 분포가 불일치한 것을 말한다.
나중에 다루려고 했는데 이렇게 불균등한 데이터셋으로 훈련한 모델을 테스트했을 때, 테스트 시 위양성과 위음성이라는 문제가 생길 수도 있다. 훈련 시 모든 샘플이 같은 가중치로 반영된다고 가정하지만, 테스트 시 위양성샘플과 위음성샘플은 서로 다른 비용을 가지고 있을 수 있기 때문이다. 이상탐지 시스템은 이러한 문제를 해결해야 한다.
아무튼 이렇게 불균등한 데이터셋을 가지고 있을 경우 리샘플링을 해 데이터를 균등하게 맞출 수 있다. 가장 간단한 방법은 랜덤 샘플링이다. 랜덤 샘플링에는 랜덤 오버 샘플링, 랜덤 언더 샘플링이 있다. 이러한 샘플링 방법은 데이터를 균등하게 바꿔주기는 하지만 몇 가지 문제를 야기할 수 있다. 데이터의 규모가 커져 모델 훈련의 복잡도가 높아지거나, 과적합의 원인이 되고 유용한 정보를 담고 있는 샘플이 제거되어 모델이 전체적인 데이터의 특징을 학습하지 못하게 되는 문제를 예로 들 수 있다.
이러한 문제를 해결하기위해 오버 샘플링을 할 때 단순하게 샘플을 복제하는 것이 아닌, 다른 방법을 사용해서 새로운 샘플을 생성한다. 예를 들어 SMOTE 알고리즘을 들 수 있다.
- 준지도 학습 기법 :
훈련 데이터 중 정상 개체에만 라벨 정보가 있고, 그 외 데이터에 대해 정상/이상 여부를 알 수 없는 경우 사용하는 기법으로 지도 학습 기법보다 넓은 범위에 적용할 수 있다.
대표적인 알고리즘으로는 단일 클래스 서포트 벡터 머신이 있다. 이 알고리즘은 양성 예제만(정상 개체만) 서포트 벡터 머신의 훈련 데이터셋으로 학습하고, 새로운 데이터가 훈련 데이터셋과 유사한지 아닌지를 기반으로 이상 데이터를 분류한다.
- 규칙 기반 기법 :
가장 오래되었으며 간단한 방식이다. 규칙 기반 기법에서는 특정 데이터의 이상 유형을 미리 파악하고 이를 식별하는 규칙을 마련한다. 이 규칙은 도메인 전문가의 지식, 데이터의 특정 경험을 바탕으로 만들어지는 경우가 많다.
상대적으로 이해하고 개발하기 쉽지만, 규칙이 정적이고 융통성 없기 때문에 시간이 갈수록 시스템의 유지 보수와 개선이 어려워진다.
6️⃣ 이상 탐지 솔루션
위양성은 통계에서의 1종 오류, 위음성은 2종 오류라고 불리기도 한다. 위양성은 이상 탐지 시스템이 정상 데이터를 이상 데이터로 식별하는 것이고, 위음성은 이상 탐지 시스템이 이상 데이터를 정상 데이터로 식별하는 것이다. 이상 탐지 시스템을 구현할 때는 이 두 유형의 오류 간의 상층관계를 고려해야 한다.
위양성이 너무 많으면 업무 부담이 가중되고, 위음성이 너무 많으면 시스템의 실효성이 떨어진다. 이상 현상을 최대한 많이 탐지하면서도 감당할 수 있는 업무량을 유지할 수 있는 적절한 상충점을 찾아야 한다.
또한 이상 탐지 모델이 학습한 데이터가 시간이 지남에 따라 유효하지 않을 수도 있으니, 모델의 학습 유형과 상관없이 지속적으로 모니터링하고 탐지 모델의 정확도를 평가해야 한다.
하둡 에코시스템에서 이상 탐지 솔루션을 구축하면, 일괄 처리 방식으로 구현할 수도 있고 실시간 처리 방식으로도 구현할 수 있다. 이벤트(데이터)저장소로 일괄 처리는 주로 HDFS(Hadoop Distributed File System)를 사용하고, 실시간 처리는 아파치 카프카 같은 분산 대기열을 주로 사용한다. 분산처리시스템으로 일괄 처리는 스파크나 피그, 맵리듀스를 주로 사용하고, 실시간 처리는 스파크 스트리밍이나 스톰, 플링크같은 스트리밍 처리 솔루션을 사용한다.
각 솔루션마다 특성과 한계가 있기때문에, 실시간 처리 방식을 구축할 때는 솔루션의 특성을 반드시 고려해서 선택해야 한다.
이상치 분석 시스템의 일반적인 로직은 다음과 같다.
- 데이터에서 이상치를 분석할 이벤트 그룹의 키와 이상 점수를 계산할 값 추출
- 시스템에 유입되는 이벤트 그루핑
- 이전 타임 윈도우의 데이터를 바탕으로 각 이벤트 분석
타임 윈도우가 단위이니, 타임 윈도우를 잘 설정하는 것이 중요하다.
고려해야할 점은 다음과 같다.
- 알고리즘에 사용할 대량의 데이터를 모두 메모리에 적재하면 메모리가 부족할 수도 있으니, 분산 스케치나 블룸 필터같은 확률적 스케칭 알고리즘 사용하기
- 데이터의 분포나 계절성 고려해서 위양성 결과를 주기적으로 모니터링하고 룩백 윈도우 같은 시스템 설정 지속적으로 조정하기
좋은 이상 탐지 시스템은 관심과 애정이 만든다. 시스템을 항상 모니터링하고 실세계 데이터에 맞춰 매개변수를 지속적으로 조정해야 한다.
[참고 자료]
1. [기계학습(Machine Learning) 기반 이상 탐지(Anormaly Detection)기법 연구 - 보건사회 분야를 중심으로] 한국보건사회연구원(오미애, 박아연, 김용대, 진재현)
2. [하둡과 스파크를 활용한 실용 데이터 과학] 오퍼 멘델리비치, 케이시 스텔라, 더글라스 에드라인 지음, 이춘오 옮김
'Data' 카테고리의 다른 글
[Kaggle/EDA]House Prices - Advanced Regression Techniques (0) | 2021.04.28 |
---|---|
데이터 기반 의사 결정(data driven decision making) (0) | 2021.04.19 |
빅데이터의 정의와 데이터 수집, 저장 (0) | 2021.04.11 |
이미지 데이터가 부족할 때 생기는 문제(과적합; Over-fitting) 완화 방안 (0) | 2021.04.04 |
[자연어처리]파이썬으로 데이터전처리하기 (0) | 2021.03.30 |