Paper) Deep Learning for Anomaly Detection: A Review

Anomaly Detection에 관심이 있는 분이라면 한 번 읽어보시길 추천드린다.

https://arxiv.org/abs/2007.02500

Deep Learning for Anomaly Detection: A Review

Anomaly detection, a.k.a. outlier detection or novelty detection, has been a lasting yet active research area in various research communities for several decades. There are still some unique problem complexities and challenges that require advanced approac

arxiv.org

아직 다 읽지는 않았지만, 잘 정리된 논문인 것 같고, 기존에 알고 있던 지식은 큰 틀에서 하나의 범주에만 속한다는 것을 알게 되었다.

빨리 읽고 싶어서 파파고를 아주 많이 사용하고 있으니, 참고 부탁드립니다 :)

이 논문은 딥러닝 가반의 Anomaly Detection에 대한 논문이고 11개로 세분화해서 잘 설명하고 있다.

각 카테고리 별로 다음과 같이 설명
- intuition
- objective function
- assumptions
- advatanages
- disadvantages
- dicuss

Introduction

Contribution

Problem nature and challenges
- 이상 징후 감지의 기초가 되는 몇 가지 고유한 문제 복잡성과 그 결과 대부분 해결되지 않은 과제에 대해 논의
Categorization and formulation
- 현재의 심층 이상 탐지 방법을 세 가지 원칙적인 프레임워크로 공식화
  - 일반적인 특징 추출을 위한 딥 러닝
  - 정규성에 대한 학습 표현
  - 종단 간 이상 점수 학습
- 11가지 다른 모델링 관점을 기반으로 방법을 분류하기 위한 계층 분류법이 제시
Comprehensive literature review
- 머신러닝, 데이터 마이닝, 컴퓨터 비전 및 인공지능을 포함한 여러 관련 커뮤니티의 선도적인 콘퍼런스 및 저널에서 많은 관련 연구를 검토하여 연구 진행 상황에 대한 포괄적인 문헌 검토를 제시
- 심층적인 소개를 제공하기 위해, 우리는 모든 범주의 방법에 의해 앞서 언급한 과제 중 일부를 해결하는 데 있어 기본적인 가정, 객관적 기능, 핵심 직관 및 그 능력을 설명한다.
Future opportunities
- 미래의 가능한 기회와 관련 과제를 해결하는 데 미치는 영향에 대해 추가로 논의한다.
Source codes and datasets
- 우리는 몇 가지 경험적 비교 벤치마크를 제공하기 위해 거의 모든 범주의 방법에 대한 공개적으로 액세스 가능한 소스 코드와 실제 이상이 있는 많은 실제 데이터 세트를 수집해 줄 것을 요청

ANOMALY DETECTION: PROBLEM COMPLEXITIES AND CHALLENGES

이상치 탐지 같은 경우 고유한 특성 때문에 학습 문제 및 과제와 구별되는 문제 복잡성을 제시한다.

본질적인 복잡성과 해결되지 않은 탐지 과제를 요약한다.

Major Problem Complexities

대다수의 테스크와는 달리 이상치 탐지는 minority, unpredictable/uncertain and rare events로 인해서 복잡성을 초래한다.

Unknownness
- 이상 징후는 알 수 없는 것과 연관되어 있다.
- 실제로 발생하기 전까지는 알 수 없다.
Heterogeneous anomaly classes
- 이상 징후는 불규칙하므로 한 종류의 이상 징후는 다른 종류의 이상 징후와 완전히 다른 이상 특성을 나타낼 수 있다.
  - 예를 들어 영상 감시에서는 이상 사건 강도, 교통사고, 빈집털이 등이 시각적으로 크게 다르다.
Rarity and class imbalnce
- 이상 징후는 일반적으로 데이터의 압도적인 비율을 차지하는 일반 인스턴스와는 대조적으로 희귀한 데이터 인스턴스입니다.
- 따라서 라벨링된 비정상 사례를 대량으로 수집하는 것은 불가능하지는 않지만 어렵다.
- 대부분의 응용 프로그램에서 대규모 레이블링 데이터를 사용할 수 없습니다.
  - class imbalnce은 또한 이상 징후의 오분류가 일반적으로 훨씬 더 많다는 사실에 기인한다.
  - 일반 사례보다 비용이 많이 듭니다.
Diverse types of anomaly
- 3가지의 이상 징후가 있음
1. Point anomalies
  - 대부분의 다른 개별 인스턴스에서 비정상적으로 나타나는 개별 인스턴스이다.
  - 한 환자의 비정상적인 건강 지표
2. Conditional anomalies(contextual anomalies)
  - 개별 인스턴스에 나타나는 비상적인 개별 인스턴스지만 특정 context가 포함된다.
  - 데이터 인스턴스는 특정 컨텍스트에서 비정상적이며, 그렇지 않으면 정상
  - 특정 시간적 맥락에서의 갑작스러운 온도 강하/강하
3. Group anomalies
  - 집합적 이상 징후는 다른 데이터 인스턴스 전체로서 데이터 인스턴스의 하위 집합이다.
  - 소셜 네트워크의 가짜 계정에 의해 형성된 예외적으로 밀도가 높은 하위 그래프는 모음으로서 변칙이지만, 그러한 하위 그래프의 개별 노드는 실제 계정만큼 정상적일 수 있다.

Main Challenges Tackled by Deep Anomaly Detection

위와 같은 복잡한 문제 특성은 여러 가지 탐지 과제를 낳는다.

데이터 크기의 확장성과 같은 일부 과제는 최근 몇 년 동안 잘 해결되었지만, 심층 이상 감지가 몇 가지 중요한 역할을 할 수 있는 다음과 같은 문제가 대부분 해결되지 않았다.

CH1: Low anomaly detection recall rate

이상치는 매우 드물고, 이질적(heterogeneous)이기 때문에, 모든 이상 징후를 식별하는 것은 어렵다.

보통 정상적인 경우들이 이상 징후라고 잘 못되게 보고되는 반면 정교하게 생긴 실제 이상치는 놓칠 때가 있다.

수년간 수많은 이상치 방법론들이 도입되었지만, 최신 기수들인 비지도 방법들은 여전히 실제 데이터셋에서 높은 오 탐지(false positives)를 발생시킨다.

특히 이상치를 발견하는 데 실패하여 커다란 비용을 드는 경우에, 오탐지를 줄이고, 탐지율을 높이는 방법은 어렵지만 가장 중요한 것 중에 하나가 되었다.

CH2: Anomaly detection in high-dimensional and/or not-independent data

이상 징후는 종종 저차원 공간(low-dimensional space)에서는 명백한 비정상적 특성을 나타내지만 고차원 공간(high-dimensional space)에서는 눈에 띄지 않는다.

고차원 이상 징후 탐지는 오랫동안 문제가 되었다.

이러한 경우 방법론은 subspace-based 와 featureselection-based 방법론이 있다.

subspace-based
featureselection-based

그러나 고차원 데이터에서는 복잡한(예: 고차 비선형 및 이종) 특징 상호작용 및 커플링 식별이 필수적일 수 있지만, 여전히 이상치 탐지의 주요 난제로 남아 있다.

미지수
이상치의 이질성(heterogeneities)
시간적, 공간적, 그래프 기반 및 기타 상호의존 관계와 같이 서로 종속될 수 있는 경우

CH3: Data-efficient learning of normality/abnormality

대규모 레이블링이 된 이상체 데이틔 수집은 비용이 많이 들고, 모으기 힘들기 때문에, 완전히 지도 학습 방식의 이상치 탐지 방법을 사용하기에는 비실용적이다.

즉, 지도 학습 방식에서는 정규 데이터와 이상 데이터가 모두 있는 레이블링 된 데이터를 가정하기 때문에 이상치에는 사용하기 힘들다.

지난 10년 동안 주요 연구 노력은 레이블링 된 훈련 데이터가 필요하지 않은 비지도 이상 탐지에 집중되어 왔다.

그러나 비지도 방법은 실제 이상 징후에 대한 사전 지식이 없다.

비지도 방식들은 이상치의 분포의 가정에 많이 의존한다.

어쩔 때는 비정상인 경우와 정상인 경우를 수집하기가 어렵지 않은 경우가 있다. 이런 경우에는 가능한 레이블링이 된 데이터를 많이 활용할 수 있는 방법론을 권장한다고 한다.

따라서 정규성/비정상성의 표현적 표현을 학습하기 위해 레이블이 지정된 데이터를 활용하는 것은 정확한 이상 징후 검출에 중요하다.

이러한 연구로는 다음과 같은 방법론들이 있다.

Semi-supervised anomaly detection
- 정상인 경우를 훈련 데이터로 가정
weakly-supervised anomaly detection
- 부분적이고 완전하지 않은 레이블 데이터가 있지만, 이상치 데이터가 몇 개 있다고 가정
  - partial/incomplete(they do not span the entire set of anomaly class)
  - inexact(coarse-grained labels)
  - inaccurate(some given labels can be incorrect)

두 가지 주요 과제는 소량의 레이블링된레이블링 된 이상 징후 데이터를 사용하여 정규성/이상성 표현을 학습하는 방법과 주어진 레이블링 된 이상 징후 데이터에 의해 밝혀지는 새로운 이상 징후로 일반화된 탐지 모델을 학습하는 방법이다.

CH4: Noise-resilient anomaly detection

많은 weakly/semi-supervised anomaly detection 방법들은 훈련 데이터가 잘 정제되어있다고 가정한다.

이는 반대 클래스 레이블로 잘못 레이블이 지정된 노이즈가 많은 경우에 취약할 수 있다.

이러한 경우, 위의 방식보다는 비지도 방법을 사용할 수 있지만, 실제 라벨링된 데이터를 활용할 수 없게 된다.

추가적으로 역시 라벨링 되어 있지 않는 대규모 이상치 데이터에도 오염이 있을 수 있다.

그러므로 노이즈에 대해서도 탄력적으로 처리해줄 수 있는 모델은 레이블이 없는 데이터를 활용하여 보다 정확한 탐지를 가능하게 한다.

그러므로 노이즈는 잘못 레이블링이 된 데이터 또는 레이블링이 되지 않은 이상징후일 수 있다.

주요 과제는 노이즈의 양이 데이터 세트와 크게 다를 수 있고, 노이즈가 있는 경우 데이터 공간에서 불규칙하게 분포될 수 있다는 것이다.

CH5: Detection of complex anomalies

기존 방법의 대부분은 point anomalies을 위한 것

point anomalies과 완전히 다른 동작을 보이기 때문에 conditional anomaly 및 group anomaly에는 사용할 수 없다.

주요 과제는 conditional/group 이상 징후의 개념을 이상 measures/model에 통합하는 것이다.

또한, 현재 방법론들은 보통 single data sources에서 이상치를 탐지하는 데 초점을 맞추고 있지만, 많은 애플리케이션에서는 다양하고 이질적인(heterogeneous) 데이터 소스에서 이상치 탐지를 하는 것을 원한다.

다차원 데이터
그래프
이미지
텍스트
오디오

주요 과제는 두 개 이상의 데이터 소스를 고려할 때만 일부 이상을 탐지할 수 있다는 것이다

CH6: Anomaly explanation

안전을 중요시하는 도메인에서 이상 탐지 모델을 블랙박스 모델로 직접 사용할 경우 몇 가지 주요 위험이 있을 수 있다.

예를 들어, 이상 징후로 보고되는 희귀 데이터 경우에는 사기 탐지 및 범죄 탐지 시스템에서 과소 표현(under-represented)된 그룹과 같이 데이터에 제시된 소수 그룹(minority groups)에 대한 알고리즘 편향을 초래할 수 있다.

이러한 위험 유형을 완화하기 위한 효과적인 접근법은 특정 데이터의 경우가 이상 징후로 식별되는 이유에 대한 간단한 단서를 제공하는 이상 설명 알고리즘(anomaly explanation algorithm)을 갖는 것이다.

인간 전문가들이 그 편견을 조사하고 교정할 수 있다.
그러한 설명을 제공하는 것은 일부 애플리케이션에서 검출 정확도만큼 중요할 수 있다.

그러나 많은 이상치 탐지 연구들은 탐지 정확도에만 초점을 맞추고 있고, 인식된 이상치에 설명을 제공하는 능력은 무시하고 있다.

탐지 방법론들로부터 이상치 설명을 이끌어 내는 것은 여전히 풀리지 않은 문제이다.

본질적으로 해석 가능한 이상 징후 감지 모델을 개발하는 것도 중요하지만, 모델의 해석 가능성과 효과의 균형을 잘 맞추는 것이 여전히 주요 과제이다.

심층적인 방법을 통해 전체 이상 징후 탐지 파이프라인을 엔드 투 엔드 최적화할 수 있으며, 또한 이상 징후 감지를 위해 특별히 맞춤화된 표현 학습을 가능하게 한다.

이 두 가지 기능은 위의 여섯 가지 과제를 해결하는 데 중요하지만 기존 방법에는 그렇지 않다.

특히 레이블링된 정상 데이터 또는 일부 라벨링된 데이터의 활용도를 크게 개선한다.

데이터 유형에 관계없이 이상 데이터를 제공하여 완전히 감독되는 설정(CH2, CH3, CH4, CH5)에서와 같이 라벨이 부착된 대규모 데이터의 필요성을 줄입니다.

이는 결과적으로 더 많은 정보를 가진 모델을 만들어 더 나은 회수율(CH1)을 만든다.

anomaly explanation 과제의 경우, 심층 방법이 블랙박스 모델인 경우가 많지만, 이상 감지 및 설명을 단일 프레임워크로 통합하기 위한 옵션을 제공하여 특정 모델에 의해 발견된 이상 징후를 보다 정확하게 설명할 수 있다.

또한 심층 방법은 고차원 데이터, 이미지 데이터, 비디오 데이터, 그래프 데이터 등과 같은 다양한 유형의 데이터에서 복잡한 구조와 관계를 학습하는 데 뛰어나다.

이러한 능력은 CH1, CH2, CH3 그리고 CH5와 같은 문제들에서 중요한 능력이다.

또한 이기종(heterogeneous) 데이터 소스의 통일된 표현을 원활하게 학습하기 위한 많은 효과적이고 사용하기 쉬운 네트워크 아키텍처와 원칙적인 프레임워크를 제공한다. 이것은 CH3, CH5와 같은 주요 과제를 해결할 수 있게 된다.

Taxonomy of Deep Anomaly Detection Techniques

Taxonomy of Current Deep Anomaly Detection Techniques

Conceptual Framework of Deep Anomaly Detection Approaches

Three Main Deep Anomaly Detection Approaches 4

DEEP LEARNING FOR FEATURE EXTRACTION

Assumptions

딥 러닝 모델에 의해 추출된 특징 표현은 이상 징후를 정상적인 경우와 분리하는 데 도움이 되는 차별적 정보를 보존한다.

Advantages

다수의 최신(사전 훈련된) 심층 모델과 기성품(off-the-shelf) 이상 탐지기를 쉽게 사용할 수 있다.
심층 형상 추출(feature extraction)은 일반적인 선형 방법보다 더 강력한 치수 감소를 제공한다.
심층 모델과 탐지 방법은 많이 오픈되어 있어서 구현하기 쉽다.

Disadvantages

완전히 분리된 특징 추출(fully disjointed feature extraction)과 이상 점수 매김은 종종 supoptimal anomaly scores로 이어진다.
사전 훈련된 심층 모델은 일반적으로 특정 유형의 데이터로 제한된다.

Challenges Trend

이 방법의 범주는 고차원/비독립 데이터를 상당히 낮은 차원의 공간에 투영하여 기존의 이상 탐지 방법이 더 단순한 데이터 공간에서 작동할 수 있게 한다.

CH2

저차원 공간은 종종 숨겨진 이상치를 드러내는데 도와주고, 오탐지를 줄일 수 있다.

CH1

이 접근 방식을 통해 여러 유형의 특징을 활용하고 의미가 풍부한 탐지 모델(예: [65, 66, 163]의 다양한 사전 정의된 이미지/비디오 특징)을 학습할 수 있으며, 이는 또한 잘못된 긍정을 줄이는 데 도움이 된다.

그러나 이러한 방법은 데이터 예상이 이상 탐지와 완전히 분리되기 때문에 이상 탐지를 위한 충분한 정보를 보존하지 못할 수 있다는 점에 유의해야 한다.

LEARNING FEATURE REPRESENTATIONS OF NORMALITY

이 범주의 방법은 지난 절에서와 같이 이 두 모듈을 완전히 분리하는 대신 어떤 방식으로든 이상 점수를 매기는 학습을 특징으로 한다.

generic feature learning
anomaly measure-dependent feature learning

1. Generic Normality Feature Learning

이 범주의 방법은 주로 이상 징후 탐지를 위해 설계되지 않은 일반적인 특징 학습 목표 기능을 최적화하여 데이터의 표현을 학습하지만, 학습된 표현은 일부 주요 기본 데이터 규칙성을 캡처해야 하므로 이상 징후 탐지에 힘을 실어줄 수 있다.

1. data reconstruction

2. generative modeling

3. predictability modeling

4. self-supervised classification

1. AutoEncoders

이러한 유형의 접근 방식은 주어진 데이터를 잘 재구성할 수 있는 저차원 특징 표현 공간을 학습하는 것을 목표로 한다.

흔히 data compression이나 dimension reduction으로 알려져 있다.

Sparse AE
Denosing AE
Contractive AE
Variational AE
Replicator neural network
RadnNet
RDA
CNN-AE, LSTM-AE, GCN, Conv-LSTM-AE

Assumptions

정상인 경우들은 이상 징후보다 압축된 공간에서 재구성하는 것이 좋습니다.
AE(Autoencoder) 네트워크는 이 범주에서 일반적으로 사용되는 기술입니다.

Advantages

AE의 개념은 간단하고 다른 유형의 데이터에 일반적이다.
다양한 유형의 강력한 AE 변형을 활용하여 이상 탐지를 수행할 수 있다.

Disadvantages

학습된 특징 표현(learned feature representation)은 빈번하지 않은 규칙과 훈련 데이터의 이상치 또는 이상 징후의 존재에 의해 편향될 수 있다.
데이터 재구성의 목표 기능은 이상 감지가 아닌 치수 축소 또는 데이터 압축을 위해 설계되었다.
결과적으로, 결과 표현은 기본 규칙성에 대한 일반적인 요약이며, 이는 불규칙성을 탐지하는 데 최적화되지 않았다.

Challenges Trend

CH2

AE 프레임워크에서 다양한 유형의 신경망 계층과 아키텍처를 사용할 수 있으므로, 고차원 데이터뿐만 아니라 귀속 그래프 데이터[37] 및 다변량 시퀀스 데이터와 같은 비독립 데이터도 탐지할 수 있다.

CH1

학습된 표현이 더 표현력이 뛰어난 경우 이러한 방법은 수작업으로 제작된 기존 방법에 비해 잘못된 긍정을 줄일 수 있다.

CH4

AE는 Noise을 기억하도록 훈련될 수 있기 때문에 일반적으로 훈련 데이터에 제시된 데이터 노이즈에 취약하여 심각한 과적합과 이상 징후의 작은 재구성 오류를 초래한다.

RPCA의 아이디어는 보다 강력한 탐지 모델을 훈련시키기 위해 AE에 사용될 수 있다.

2. Generative Adversarial Networks

AnoGAN
EBGAN
BiGAN

Assumptions

일반 데이터 인스턴스는 GAN의 생성 네트워크의 잠재 특징 공간에서 이상 징후보다 더 잘 생성될 수 있다.

Advantages

GAN은 잠재 공간에서 제대로 재구성되지 않은 비정상인 경우를 탐지할 수 있는 능력을 강화하면서 특히 이미지 데이터에 대한 실제 인스턴스를 생성하는 데 탁월한 능력을 입증했다.
다수의 기존 GAN 기반 모델과 이론이 이상 탐지에 적용될 수 있다.

Disadvantages

훈련이 굉장히 어렵다(converge, mode collapse)
생성기 네트워크는 특히 주어진 데이터 세트의 실제 분포가 복잡하거나 교육 데이터가 예상치 못한 이상값을 포함할 때, 오도될 수 있고 일반 인스턴스의 매니폴드 외부에서 데이터를 생성할 수 있다.
GAN 기반 이상 점수는 이상 탐지가 아닌 데이터 합성을 위해 설계된 목표를 가지고 발전기 네트워크에 구축되기 때문에 supoptimal이 될 수 있다.

Challenges Trend

CH1

잠재된 공간이 중요한 이상 판별 정보를 보존하면 원래 데이터 공간보다 탐지 정확도를 향상하는 데 도움이 된다.

CH2

GAN 기반 이상 감지는 학습된 저차원 잠재 공간에서 재구성을 검사하여 고차원 이상을 감지할 수 있다.

3. Predictability Modeling

예측 가능성 모델링 기반 방법은 temporal window 내에서 이전 표현을 컨텍스트(context)로 사용하여 현재 데이터를 예측하여 기능 표현을 학습한다.

이 기술은 sequence representation learning 과 prediction에서 많이 사용된다.

정확한 예측을 달성하기 위해 주어진 시퀀스 길이 내에서 시간/순차 및 반복 의존성을 포착하기 위해 표현이 시행된다.

정상인 경우에는 일반적으로 그러한 의존성을 잘 따르고 잘 예측할 수 있는 반면, 이상 징후는 종종 그러한 의존성을 위반하고 예측할 수 없다. 따라서 예측 오류는 이상 점수를 정의하는 데 사용할 수 있습니다.

video anomaly detecion에서 유명한 방법이다.

Assumptions

정상인 경우에는 일시적으로 이상 징후보다 예측 가능성이 높습니다.

Advantages

많은 시퀀스 학습 기법이 이 접근법에 적용되고 통합될 수 있다.
이 접근법은 다른 유형의 시간적, 공간적 의존성에 대한 학습을 가능하게 한다.

Disadvantages

이 접근 방식은 시퀀스 데이터에서 이상 징후 탐지로 제한된다.
순차적 예측은 계산 비용이 많이 들 수 있다.
학습된 표현은 이상 징후 감지가 아닌 순차적 예측을 위한 것이기 때문에 이상 징후 감지에 최적이 아닐 수 있다.

Challenges Trend

CH1 & CH2

이 접근법은 특히 고차원 및/또는 시간 데이터 세트에서 이상 징후 탐지의 잘못된 긍정을 해결하는 데 도움이 되는 일시적으로 종속된 저차원 표현을 학습하도록 설계되었다.

CH5

예측은 일부 경과된 시간에 따라 결정되므로 이 범주의 방법은 시간적 맥락 기반 조건부 이상을 감지할 수 있다.

4. Self-supervised Classification

이 접근법은 self supervised classificaiton 모델을 구축하여 정규성의 표현을 학습하고, 분류 모델과 일치하지 않는 인스턴스를 이상 징후로 식별한다.

이 접근법은 교차 특성 분석 또는 특징 모델을 기반으로 하는 전통적인 방법에 뿌리를 두고 있다.

이러한 shallow 방법은 예측 모델 집합과의 일관성을 통해 데이터의 정규성을 평가하며, 각 모델은 나머지 특징에 기초하여 하나의 특징을 예측하는 방법을 학습한다.

Assumptions

정상인 경우는 이상 징후보다 self supervised classifier와 더 일치합니다.
예측 모델을 구축하기 위해 먼저 horizontal flipping, translations and rotations을 포함한 기하학적 변환 연산의 다양한 구성이 일반 훈련 영상에 적용된다.

Advantages

비지도 및 준지도 환경에서 모두 잘 작동합니다.
Anomaly scoring은 기울기 크기와 업데이트의 일부 본질적 특성에 의해 기초된다.

Disadvantages

피쳐 변환 작업은 종종 데이터에 의존합니다. 위의 변환 연산은 image 데이터에만 적용됩니다.
분류 모델은 엔드 투 엔드 방식으로 훈련되지만 일관성 기반 anomaly scores는 최적화의 통합 모듈이 아닌 분류 점수에 따라 도출되므로 차선이 될 수 있다.

Challenges Trend

CH1 & CH2

이 접근법이 배우는 정규성의 표현적인 저차원 표현은 원래 고차원 공간보다 이상을 더 잘 감지하는 데 도움이 된다.

CH4

자가 지도 분류기에 제시된 이상 징후와 정상 사례 사이의 일부 본질적인 차이 때문에, 이 접근방식은 또한 비지도 환경에서 작동하여 훈련 데이터의 이상 오염에 대한 우수한 견고성을 입증할 수 있다.

2. Anomaly Measure-dependent Feature Learning

Anomaly measure-dependent feature learning은 기존의 anomaly measure 하나에 특별히 최적화된 feature representation을 학습하는 것을 목표로 한다.
공식적으로, 이 방법의 그룹에 대한 프레임워크는 함수로 나타낼 수 있다.

generic feature learning과의 다르게 anomaly measure에 의존하지 않는다는 것이 차이점이다.

anomaly measures
- distance-based measure
- one-class classification measure
- clustering-based measure

1. Distance-based Measure

Deep distance-based anomaly detection은 특정 유형의 거리 기반 이상 탐지에 특별히 특징 표현을 학습하는 것을 목표로 한다.

전통적 거리 기반 이상 측정

DB outliers
K-nearest neighbor
average k-nearest neighbor
relative distance
random nearest neighbor

이러한 전통적인 거리 기반 이상 측정의 한 가지 주요 한계는 차원성의 저주로 인해 고차원 데이터에서 효과적으로 작동하지 못한다는 것이다.

때문에 deep distance-based anomaly detection 기술은 distance measures를 적용하기 전에 데이터를 저차원으로 투영시킨다.

Assumptions

정상의 경우에는 밀집된 이웃에 있는 반면 이상 징후는 가장 가까운 이웃에서 멀리 분산된다.

핵심 아이디어는 무작위 하위 샘플에서 의사 레이블 이상 징후의 가장 가까운 이웃 거리가 의사 레이블 일반의 거리보다 상당히 크도록 표현이 최적화된다는 것이다.

Advantages

거리 기반 이상은 간단하며 문헌에서 풍부한 이론적 뒷받침을 통해 잘 정의된다. 따라서 이전 관련 작업에서 구축된 강력한 기반 때문에 원거리 기반 이상 탐지 방법이 잘 근거될 수 있다.
이들은 저차원 표현 공간에서 작동하며 기존의 거리 기반 이상 측정이 실패하는 고차원 데이터를 효과적으로 처리할 수 있다.
그들은 그들 스스로 특별히 맞춘 표현을 배울 수 있습니다.

Disadvantages

대부분의 거리 기반 이상 측정과 관련된 광범위한 계산은 표현 학습 과정에 거리 기반 이상 측정을 통합하는 데 장애물이 될 수 있다.
capabilities은 거리 기반 이상 측정의 고유한 약점에 의해 제한될 수 있다.

Challenges Trend

CH1 & CH2

이 접근 방식은 기존의 거리 기반 이상 조치에 맞춘 저차원 표현을 학습하여 거리 기반 탐지의 차원의 저주를 해결할 수 있다.

CH3

adapted triplet loss은 보다 효과적인 정규성 표현을 학습하기 위해 라벨링된 몇 가지 이상 사례를 활용하기 위해 고안될 수 있다.

CH4

pseudo anomaly labeling으로부터 얻은 혜택으로 이 방법론들은 잠재작 이상 징후 오염에도 강건하며, 완전히 비지도 설정에서도 효과적으로 작동한다.

2. One-class Classification-based Measure

이 범주의 방법은 subsequent one-class classification 기반 이상 탐지에 사용자 정의된 기능 표현을 학습하는 것을 목표로 한다.

one-class classification는 새로운 경우가 교육 데이터에 부합하는지 여부를 탐지하기 위해 데이터 집합에 대한 설명을 학습하는 문제라고 한다.

Support Vector Machine (SVM)
one-class SVM
Support Vector Data Description(SVDD)
deep SVDD

Assumptions

모든 정규 경우에는 단일 (추상) 클래스에서 나오며 이상 징후가 일치하지 않는 compact 모델로 요약될 수 있다.

Advantages

one-class classification 기반 이상은 문헌에서 잘 연구되고 있으며 심층 1등급 분류 기반 방법의 강력한 기초를 제공한다.
표현 학습과 one-class 분류 모델을 통합하여 맞춤형 및 보다 최적의 표현을 학습할 수 있다.
사용자가 전통적인 one-class 모델에서 적합한 커널 함수를 수동으로 선택하는 것을 자유롭게 한다.

Disadvantages

one-class 모델은 정규 클래스 내의 복잡한 분포가 있는 데이터 집합에서 비효율적으로 작동할 수 있습니다.
탐지 성능은 one-class 모델 기반 이상 조치에 따라 달라진다.

Challenges Trend

CH1 & CH2

이 범주의 방법은 one-class 분류 모델에 최적화된 저차원 표현 공간을 학습하여 검출 정확도를 향상한다.

CH3

알려진 이상 징후를 탐지할 수 있을 뿐만 아니라 새로운 이상 분류도 감지할 수 있을 뿐만 아니라 효과적인 one-class 기술 모델을 학습하기 위해서 레이블이 지정된 소수의 정상(normal) 및 비정상(abnormal) 데이터가 활용될 수 있다.

3. Clustering-based Measure

심층 클러스터링 기반 이상 감지는 새로 학습된 표현 공간의 클러스터에서 이상 징후가 명확하게 이탈되도록 표현 학습을 목표로 한다.

클러스터링 및 이상 징후 감지 작업은 자연스럽게 서로 연관되어 있기 때문에 이상 징후를 정의하기 위해 클러스터링 결과를 사용하는 데 전념하는 많은 연구가 있어 왔다.

Assumptions

정상의 경우는 이상 징후보다 클러스터에 대한 밀착도가 더 높습니다.

특정 클러스터링 알고리즘에 맞춘 feature representation을 학습하는 것을 목표로 하는 딥 클러스터링(deep clustering)은 이상 징후 탐지 방법의 가장 중요한 구성 요소이다.

Advantages

이상 탐지의 효과와 이론적 기초를 지원하기 위해 다양한 심층 클러스터링 방법과 이론을 활용할 수 있다.

기존의 클러스터링 기반 방법과 비교하여, 심층 클러스터링 기반 방법은 특히 복잡한 데이터 세트를 처리할 때 원본 데이터보다 이상 징후를 쉽게 발견하는 데 도움이 되는 특별히 최적화된 표현을 학습한다.

Disadvantages

이상 탐지 성능은 클러스터링 결과에 따라 크게 달라진다.
클러스터링 프로세스는 훈련 데이터의 오염된 이상 현상에 의해 편향될 수 있으며, 이는 결과적으로 덜 효과적인 표현으로 이어진다.

Challenges Trend

CH1 & CH2

클러스터링 기반 이상 측정은 새로 학습된 데이터 입력의 저차원 표현에 적용된다.
새로운 표현 공간이 충분한 식별 정보를 보존할 때 심층 방법은 원래 데이터 공간보다 더 나은 감지 정확도를 달성할 수 있다.

CH4

일부 클러스터링 알고리즘은 이상치에 민감하므로 주어진 데이터가 이상 현상으로 오염되면 심층 클러스터링과 후속 이상 감지가 크게 잘못될 수 있다.
auto encoder의 재구성 오류에서 수작업 기능을 사용한 심층 클러스터링은 오염에 대한 보다 강력한 모델을 학습하는 데 도움이 될 수 있다.

END-TO-END ANOMALY SCORE LEARNING

이 방법론들은 종단 간 방식으로 스칼라 이상 점수를 학습하는 것을 목표로 한다.

anomaly measure-dependent feature learning과 비교하여, anomaly scoring은 기존 anomaly measures에 의존하지 않는다.

Novel Loss functions들은 종종 anomaly scoring network를 구동하기 위해 필요한다.

기존의 anomaly measure-dependent feature learning 방법들은 종종

그러나 anomaly measure-dependent feature learning은 통합된 anomaly measures의 고유한 단점에 의해 제한되는 경우가 많은 반면, 여기 이 방법에는 그러한 약점이 없다.

하나는 기존 이상 측정과 신경망 모델을 합성하는 방법에 초점을 맞추고, 다른 하나는 직접 이상 점수 학습을 위한 새로운 손실 함수를 고안하는 데 초점을 맞춘다.

1. Ranking Models

이 방법 그룹은 abnormality rank의 absolute/relative ordering 관계와 관련된 관측 가능한 순서형 변수를 기반으로 데이터를 정렬할 수 있도록 순위 모델을 직접 학습하는 것을 목표로 한다.

Assumptions

일부 데이터 이상을 포착하는 관측 가능한 순서형 변수가 있습니다.

Advantages

anomaly scores는 adapted loss functions로 직접 최적화할 수 있다.
일반적으로 이상 징후와 정상 사례 사이에 ordinal order을 부과함으로써 이상 징후의 정의로부터 자유롭다.
이 접근법은 잘 확립된 순위 매기기 기술과 순위 매기기 학습과 같은 영역의 이론을 기반으로 할 수 있다.

Disadvantages

이러한 방법에는 최소한 어떤 형태의 라벨링 된 이상 징후가 필요하며, 이는 라벨링된 이상 징후를 사용할 수 없는 애플리케이션에는 적용되지 않을 수 있다.
모델은 소수의 라벨링된 이상 징후를 감지하는 데만 적합되기 때문에 라벨링된 이상 징후에 대해 다른 비정상적인 특징을 나타내는 보이지 않는 이상 징후로 일반화하지 못할 수 있다.

Challenges Trend

CH1, CH2

pseudo labels 또는 noisy가 많은 클래스 레이블과 같은 weak supervision을 사용하면 의심스러운 이상 징후에 대한 중요한 지식을 제공하여 보다 표현적인 저차원 표현 공간과 더 나은 감지 정확도를 학습할 수 있다.

CH3

pairwise relation prediction은 검출 모델 학습에 거칠게 세분화된/제한된 이상 징후 레이블을 통합하는 쉬운 방법을 제공한다.

CH4

이상 오염 또는 잡음이 있는 라벨이 있는 데이터에서도 잘 작동한다.

CH6

더 중요한 것은 종단 간 이상 점수 학습이 활성화 가중치 또는 이상 점수의 기울기를 역전달하여 큰 이상 점수를 일으키는 특징을 찾아냄으로써 간단한 anomaly explanation을 제공한다는 점이다.

2. Prior-driven Models

prior distribution를 사용하여 anomaly score learning을 인코딩하고 구동한다.

왜냐하면 anomaly scores는 end-to-end 방식으로 학습되기 때문에 사전 분포는 점수 학습 기능의 내부 모듈 또는 학습 출력 중 하나에 부과할 수 있다.

Assumptions

사전 분포는 데이터 세트의 정규성을 확보한다.

Advantages

anomaly scores는 주어진 사전에서 직접 최적화할 수 있다.
다양한 사전 분포를 이상 점수 학습에 통합하기 위한 유연한 프레임워크를 제공한다.
다른 베이지안 딥러닝 기법을 이상 감지에 적용할 수 있다.
이전 방법은 다른 방법보다 해석 가능한 이상 점수를 초래할 수 있다.

Disadvantages

다양한 이상 징후 탐지 애플리케이션 시나리오에 대해 보편적으로 효과적인 사전 설계를 하는 것은 불가능하지는 않지만 어렵다.
모형이 기본 분포에 잘 맞지 않으면 모형의 효과가 떨어질 수 있습니다.

Challenges Trend

CH1 & CH2

prior은 모델이 high-dimensional 데이터 및 sequential 데이터와 같은 다양한 복잡한 데이터에 대한 정보에 입각한 저차원 표현을 학습할 수 있도록 한다.

CH1 & CH3

deviation network 방법은 이상 점수에 대해 이전의 값을 부과함으로써 정규성과 이상성의 표현을 향상하기 위해 제한된 양의 라벨링 된 이상 데이터를 활용하는 유망한 성능을 보여줌으로써 detection recall을 크게 향상한다.

CH4

탐지 모델은 이상 점수 매기기 기능이 있는 사전 분포에 의해 구동되며, 교육 데이터의 이상 오염이 있는 데이터에서 잘 작동한다.

3. Softmax Likelihood Models

이 접근법은 교육 데이터에서 사건의 가능성(likelihood of events)을 극대화하여 이상 점수를 학습하는 것을 목표로 한다.

이상과 정상은 각각 희귀하고 빈번한 패턴에 해당하므로 확률론적 관점에서 정상인 경우는 높은 확률의 이벤트로 가정되는 반면 이상 사례는 낮은 확률의 이벤트일 가능성이 높다.

따라서 the negative of the event likelihood는 자연스럽게 이상 점수로 정의될 수 있다.
softmax likelihood 모델은 Noise Contastive Estimation(NCE)과 같은 도구를 통해 이 목표를 달성하는 데 효과적이고 효율적인 것으로 나타났다.

Assumptions

이상 징후와 정상인 경우는 각각 낮은 확률과 높은 확률의 이벤트입니다.

Advantages

다양한 유형의 상호작용을 이상 점수 학습 과정에 통합할 수 있다.
anomaly scores는 포착하고자 하는 특정한 비정상 상호작용에 충실하게 최적화된다.

Disadvantages

각 데이터의 기능/요소 수가 많을 경우 상호 작용의 계산에는 매우 많은 비용이 소요될 수 있습니다.
anomaly scoring 학습은 negative samples 생성의 품질에 크게 의존한다.

Challenges Trend

CH2 & CH5

공식화는 이기종(heterogeneous) 데이터 소스를 가진 데이터 세트의 저차원 표현을 학습하는 유망한 방법을 제공한다.

CH1

학습된 표현은 종종 다른 데이터 소스에서 더 많은 정규성/이상성 정보를 캡처하므로 기존 방법보다 더 나은 검출을 가능하게 한다.

4. End-to-end One-class Classification

이 범주의 방법은 주어진 데이터가 end to end 방식으로 정상인지 아닌지를 구별하는 것을 배우는 one-class 분류기를 훈련시키는 것을 목표로 한다.

One-class Classification-based Measure 방식과는 차이가 있다.

이 방법은 이 접근법은 주로 GAN과 one-class 분류의 개념으로 결합으로 인해 나타난다. (adversarially learned one-class classification.)

핵심 아이디어는 정상의 경우 one-class 판별기를 학습하여 적대적으로 생성된 pseudo anomalies과 정상을 잘 구별하는 것이다.

GAN과는 또 다른 차이점이 있다.

GAN 기반 방법은 훈련 정규 인스턴스의 정규성을 잘 포착하는 생성 모델을 달성하면서 실제 데이터 분포를 최대 근사화하기 위한 생성 분포를 배우는 것을 목표로 한다.
GAN 기반 방법은 실제값과 생성된 값 사이를 기반으로 anomly scores를 정의하고, 이번 방법론은 이상치를 분류하기 위해서 discriminator를 사용한다.

Assumptions

이상 징후에 가까운 데이터를 효과적으로 합성할 수 있다.
모든 정상의 경우는 차별적 단일 클래스 모델로 요약될 수 있습니다.

Advantages

이상 분류 모델은 엔드 투 엔드 방식으로 적대적으로 최적화된다.
풍부한 기술과 적대적 학습 이론, 그리고 one-class 분류에 의해 개발되고 뒷받침될 수 있다.

Disadvantages

생성된 참조값과 알려지지 않은 이상 징후와 잘 유사하다고 보장하기는 어렵다.
GAN의 불안정성은 다양한 품질과 결과적으로 불안정한 이상 분류 성능을 가진 생성된 인스턴스로 이어질 수 있다.
이 적용은 준지도 이상 탐지 시나리오로 제한된다.

Challenges Trend

CH1 & CH2

적대적으로 학습된 one-class 분류기는 현실적인 fringe/boundary 인스턴스를 생성하는 방법을 학습하여 표현적인 저차원 정규성 표현을 학습할 수 있게 한다.

Conclusion (TODO)

1. Exploring Anomaly-supervisory Signals

2. DeepWeakly-supervised Anomaly Detection

3. Large-scale Normality Learning

4. Deep Detection of Complex Anomalies

5. Interpretable and Actionable Deep Anomaly Detection

6. Novel Applications and Settings

Key Characteristics of 30 Representative Algorithms

Publicly Accessible Real-world Datasets with Real Anomalies

LINKS TO OPEN-SOURCE ALGORITHMS

저작자표시 (새창열림)

'관심있는 주제 > Paper' 카테고리의 다른 글

LLM) 논문 내용 정리 Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone (2)	2024.05.01
CLIP (Contrastive Language-Image Pre-Training) 알아보기 (0)	2022.08.13
진행중) swin transformer 알아보기 (2)	2022.06.10
논문 리뷰) A Generalist Agent (GATO) (0)	2022.05.25
[Paper][RL] [ToDo]Mutual Information State Intrinsic Control 리뷰 (0)	2022.05.19

Introduction

Contribution

ANOMALY DETECTION: PROBLEM COMPLEXITIES AND CHALLENGES

Major Problem Complexities

Main Challenges Tackled by Deep Anomaly Detection

CH1: Low anomaly detection recall rate

CH2: Anomaly detection in high-dimensional and/or not-independent data

CH3: Data-efficient learning of normality/abnormality

CH4: Noise-resilient anomaly detection

CH5: Detection of complex anomalies

CH6: Anomaly explanation

Taxonomy of Deep Anomaly Detection Techniques

Conceptual Framework of Deep Anomaly Detection Approaches

DEEP LEARNING FOR FEATURE EXTRACTION

LEARNING FEATURE REPRESENTATIONS OF NORMALITY

1. Generic Normality Feature Learning

1. AutoEncoders

2. Generative Adversarial Networks

3. Predictability Modeling

4. Self-supervised Classification

2. Anomaly Measure-dependent Feature Learning

1. Distance-based Measure

2. One-class Classification-based Measure

3. Clustering-based Measure

END-TO-END ANOMALY SCORE LEARNING

1. Ranking Models

2. Prior-driven Models

3. Softmax Likelihood Models

4. End-to-end One-class Classification

Conclusion (TODO)

1. Exploring Anomaly-supervisory Signals

2. DeepWeakly-supervised Anomaly Detection

3. Large-scale Normality Learning

4. Deep Detection of Complex Anomalies

5. Interpretable and Actionable Deep Anomaly Detection

6. Novel Applications and Settings

Key Characteristics of 30 Representative Algorithms

Publicly Accessible Real-world Datasets with Real Anomalies

LINKS TO OPEN-SOURCE ALGORITHMS

'관심있는 주제 > Paper' 카테고리의 다른 글

AI 도구

AI 도구 사이드 패널

티스토리툴바