본문 바로가기

AI/ML

[ML] 이상 징후 탐지(Anomaly Detection) 2

이상 징후의 분류

이상 징후는 다음 범주 중 하나에 속합니다.

  • 데이터 포인트 기반 이상 징후(Point Anomalies)
  • 상황 기반 이상 징후(Contextual Anomalies)
  • 패턴 기반 이상 징후(Collective Anomalies)

 

데이터 포인트 기반 이상 징후(Point Anomalies)

데이터 세트 내에서 다른 데이터와 현저하게 다른 행동을 보이는 개별 데이터 포인트를 지칭

 

이러한 유형의 이상징후는 한 데이터 포인트가 전체 데이터 집합의 패턴이나 통계적 범위와 맞지 않을 때 발생하며, 가장 기본적이고 널리 인식되는 이상징후 유형입니다.

특징

  • 독립성: 이상 징후는 다른 데이터 포인트와의 관계 없이 개별적으로 식별됩니다.
  • 극단성: 일반적으로 데이터 세트의 평균, 중앙값, 또는 기타 중심 경향성 지표로부터 매우 멀리 떨어진 값을 가지는 경우가 많습니다
  • 쉬운 식별: 비교적 간단한 통계적 기법이나 시각적 분석만으로도 식별이 가능합니다.

 

탐지 방법

  1. 통계적 방법:
    • Z-점수: 데이터 포인트의 값이 평균으로부터 몇 표준편차 떨어져 있는지를 측정합니다. 일반적으로 Z-점수가 ±3 이상인 데이터 포인트는 이상징후로 간주될 수 있습니다.
    • 사분위수 범위(IQR): 데이터의 25% 및 75% 사분위수를 계산하고, 이를 기반으로 상한과 하한을 설정합니다. IQR의 1.5배 또는 3배를 넘어서는 값은 이상징후로 판단됩니다.
  2. 머신 러닝 기반 방법:
    • 분류 기법: 지도 학습을 통해 정상 데이터와 이상 데이터를 구분하는 모델을 학습할 수 있습니다.
    • 이상 탐지 알고리즘: 일부 비지도 학습 기반 알고리즘은 정상 범위 데이터의 패턴을 학습하고, 이를 벗어나는 데이터 포인트를 식별합니다(예: Isolation Forest, One-Class SVM).

 

중요성 및 적용

 

데이터 포인트 기반 이상 징후는 다양한 분야에서 중요한 의미를 갖습니다:

  • 금융 분야: 사기 거래 감지, 위험 관리
  • 의료 분야: 질병 조기 진단, 비정상적인 환자 데이터 감지
  • 제조업: 품질 관리, 공정 이상 감지

 

데이터 포인트 기반 이상 징후와 특이값의 차이점

 

데이터 포인트 기반 이상 징후(Point Anomalies)와 특이값(Outliers)은 서로 밀접한 관계를 가지고 있으나, 사용하는 맥락과 의미에서 약간의 차이가 있습니다. 두 용어 모두 데이터 세트에서 일반적인 패턴이나 범위와 다르게 나타나는 데이터 포인트를 설명할 때 사용됩니다. 그러나 목적과 해석에서 차이가 있습니다.

 

데이터 포인트 기반 이상 징후

데이터 포인트 기반 이상 징후는 데이터 세트에서 기대되는 행동이나 패턴에서 현저히 벗어난 개별 데이터 포인트를 지칭합니다. 이러한 이상징후는 특정 문제를 진단하거나 예상치 못한 이벤트를 탐지하는 데 중점을 둡니다. 예를 들어, 사기 거래 탐지나 기계 고장 감지에서 이상 징후를 찾아내는 것은 특정 상황에 대한 중요한 통찰력을 제공합니다.

 

특이값 (Outliers)

특이값은 데이터 세트 내에서 다른 데이터와 상당히 다른 값을 가진 데이터 포인트를 말합니다. 특이값은 데이터 분석에서 데이터의 분포를 왜곡할 수 있으므로, 통계적 분석을 수행하기 전에 식별하고 처리하는 것이 중요합니다. 특이값은 항상 문제가 되는 것은 아니며, 때로는 측정 오류나 입력 실수로 인해 발생하기도 하지만, 때때로 중요한 정보를 제공하는 경우도 있습니다.

 

차이점

  • 목적과 중점: 이상 징후는 주로 문제를 식별하거나 특정 현상을 감지하는 데 초점을 맞춥니다. 반면, 특이값은 데이터 세트의 통계적 속성을 왜곡할 수 있는 요소로 보며, 이를 관리하는 것이 주된 관심사입니다.
  • 해석의 맥락: 이상 징후는 특정 응용 분야나 상황에 따라 중요하게 다루어지는 반면, 특이값은 데이터 세트의 전반적인 품질과 관련하여 평가됩니다.

 

 

상황 기반 이상 징후(Contextual Anomalies 또는 Conditional Anomalies)

특정 맥락이나 조건에서만 비정상으로 간주되는 데이터 포인트를 지칭

 

이 유형의 이상 징후는 데이터의 특정 속성이나 상황에 따라 정상 또는 비정상으로 분류될 수 있으며, 그 이상 현상의 발견은 맥락적 정보에 크게 의존합니다.

가령, 특정 세일 기간 무렵, 많은 양의 구매가 이루어진 경우, 일반적으로 사람들이 그렇게 하기 때문에 이상 징후로 표시되지 않습니다.

특징

  • 상황 의존성: 이상 징후의 식별이 특정 상황이나 배경 지식에 의존합니다. 예를 들어, 계절에 따라 정상 온도가 다르므로, 여름에는 높은 온도가 정상이지만 겨울에는 이상 징후가 될 수 있습니다.
  • 서브그룹 비교: 이상 징후는 특정 서브그룹 내에서만 비정상으로 간주될 수 있습니다. 예를 들어, 지역에 따라 소비 패턴이 다를 수 있으므로, 특정 지역에서의 판매량 급감은 그 지역의 맥락에서만 이상 징후가 될 수 있습니다.
  • 시간 또는 공간적 요인: 시간적(예: 시간대, 요일) 또는 공간적(예: 위치) 요소가 이상 징후를 결정하는 데 중요한 역할을 할 수 있습니다.

 

탐지 방법

  • 시간적 데이터 분석: 시계열 데이터에서 패턴이나 주기성을 분석하여 특정 시간에 예상치 못한 변동을 탐지합니다.
  • 공간적 데이터 분석: 지리적 데이터를 분석하여 특정 위치에서의 비정상적인 현상을 감지합니다.
  • 조건부 모델링: 데이터를 조건별로 분할하고 각 조건에서 데이터의 통계적 모델을 구축하여 예상 범위를 벗어나는 이상을 찾아냅니다.

 

적용 예시

  • 기후 모니터링: 계절에 따라 기후 변화의 비정상적인 패턴을 감지하여 이상 기후 현상을 조기에 발견할 수 있습니다.
  • 웹 트래픽 분석: 특정 국가나 시간대에서 예상치 못한 트래픽 급증을 감지하여 DDoS 공격 같은 보안 위협을 조기에 식별할 수 있습니다.
  • 소매 판매 분석: 특정 시즌이나 휴일 기간 동안 비정상적인 판매 패턴을 분석하여 프로모션 효과를 평가하거나 재고 관리를 최적화할 수 있습니다.

 

 

 

패턴 기반 이상 징후(Collective Anomalies)

데이터의 일련의 포인트가 함께 정상 패턴이나 기대되는 행동을 벗어날 때 관찰됩니다.

데이터 포인트 개별적으로는 이상하지 않을 수 있으나, 그룹으로 묶였을 때 비정상적인 행동을 나타내는 경우

 

패턴 기반 이상 징후는 주로 시계열 데이터, 연속된 데이터 시퀀스 또는 공간 데이터에서 발견됩니다.

 

특징

  • 시퀀스의 중요성: 데이터 포인트의 순서나 시간적, 공간적 연속성이 중요한 역할을 합니다. 예를 들어, 시계열에서는 연속된 시간 동안의 데이터 패턴이 중요하며, 각각의 데이터 포인트가 개별적으로는 정상이라도, 연속적으로 볼 때 비정상적인 패턴을 나타낼 수 있습니다.
  • 상호 의존성: 이상 징후를 구성하는 데이터 포인트들은 서로 의존적인 관계를 가집니다. 이는 집단적 특성이 중요하게 작용하는 경우를 의미합니다.
  • 복잡한 패턴 인식: 이러한 유형의 이상을 탐지하기 위해서는 데이터 내의 복잡한 패턴과 동향을 인식하고 분석할 수 있는 고급 기법이 필요합니다.

 

탐지 방법

  • 시계열 분석: 자기상관, 계절성 패턴 분석, 트렌드 분석 등을 통해 시간에 따른 데이터의 변동 패턴을 이해하고, 예상치 못한 변화를 감지합니다.
  • 클러스터링과 분류: 데이터 포인트 그룹을 클러스터링하여 각 클러스터의 패턴을 분석하고, 이상한 패턴을 보이는 클러스터를 식별합니다.
  • 순차적 패턴 마이닝: 데이터 시퀀스 내에서 반복되는 패턴이나 순차적인 관계를 찾아내고, 이를 기반으로 예상되는 패턴에서 벗어난 시퀀스를 이상징후로 간주합니다.

 

적용 예시

  • 네트워크 트래픽 분석: 연속적인 시간 동안의 네트워크 트래픽을 모니터링하여 갑작스러운 트래픽의 증가나 감소를 감지합니다. 이는 DDoS 공격과 같은 보안 문제를 조기에 식별할 수 있게 합니다.
  • 의료 모니터링: 환자의 연속적인 건강 데이터를 분석하여 평소와 다른 건강 변화 패턴을 식별합니다. 예를 들어, 연속된 일정 기간 동안의 심장 박동수 변화를 통해 건강 문제를 조기에 발견할 수 있습니다.
  • 금융 시장 분석: 주식이나 금융 시장의 데이터를 분석하여 정상적인 거래 패턴과 다른 비정상적인 거래 행위를 감지합니다. 이는 시장 조작이나 비정상적인 거래 행위를 조기에 파악하는 데 사용됩니다.