예외 탐지란?

예외 탐지는 데이터 세트에 예외가 나타나는 경우 예외를 식별하고 처리하기 위한 일련의 도구를 사용합니다.

데이터 패턴 내 변화, 이상치, 표준 트렌드에서 벗어나는 이벤트입니다. 예상되는 사항으로부터의 편차 또는 예상을 따르지 않는 사항입니다.

예외 또는 패턴 내 이상치는 정상적인 상황에서 벗어나는 것 또는 정상적이지 않을 가능성이 있는 것을 나타낼 수 있습니다.

포인트/글로벌 예외

하나의 데이터 포인트가 나머지에서 너무 멀리 떨어져 있는 경우입니다.

상황별 예외

어떤 데이터 세트의 컨텍스트에서는 비정상이지만 다른 데이터 세트의 컨텍스트에서는 정상인 예외입니다. 시계열 데이터에서 가장 흔히 발생하는 상황별 예외 유형입니다.

집단적 예외

데이터 하위 세트 전체가 더 넓은 범위의 데이터 세트와 비교했을 때 변칙적인 경우입니다. 집단적 예외가 식별되면 개별 데이터 포인트는 고려하지 않습니다.

흔치 않은 이상치 또는 데이터 세트 트렌드에서 벗어나는 데이터 포인트의 식별입니다. 예외는 의심스러운 이벤트, 오작동, 결함 또는 사기 행위로 인해 발생할 수 있습니다.

예외 탐지의 당면 과제

예외 탐지 시스템에는 수동 분석 작업이 필요하거나 ML(머신 러닝)을 사용해야 합니다. 이 경우 심층적인 도메인 지식이 필요하고 예외가 드러나기 전에 가능한 통계적 예외를 예측해야 한다는 어려움이 있기 때문에 고충이 될 수 있습니다.

머신 러닝을 통한 예외 탐지

예외 탐지 및 머신 러닝의 이점

ML(머신 러닝)은 수동 탐지보다 빠르고, 변화에 대한 적응성이 뛰어나며, 대규모 데이터 세트를 손쉽게 처리할 수 있기 때문에 예외 탐지에 더 효과적입니다.

비정형 데이터

정형화된 데이터에는 데이터의 이해와 데이터의 의미에 대한 기반이 갖추어져 있습니다. 인코딩 또는 비정형 데이터는 데이터 컨텍스트에 대한 해석과 이해가 거의 갖추어져 있지 않아 정형화되기 전까지는 쓸모 없는 알고리즘을 렌더링할 수 있습니다.

대규모 데이터 세트 필요

분석에 효과적인 데이터 세트는 명확한 트렌드를 보여주고 적합한 예외를 식별할 수 있을 만큼의 규모가 되어야 합니다. 소규모의 데이터 세트에서는 유효한 추론을 할 수 없고 대규모의 데이터 세트는 트렌드의 일부이거나 예측한 만큼의 정도가 아닌 예외를 제외한 예외가 드러날 수 있기 때문에 탐지에 효과적입니다.

숙련된 인재 필요

머신 러닝 알고리즘 학습을 위해서는 심층적인 지식을 갖춘 엔지니어 또는 데이터 과학자가 필요합니다. 솔루션 역량에 따라 머신 학습에 몇 주 또는 몇 개월이 걸릴 수 있으며 솔루션에 따라 다른 수준의 머신 러닝 역량이 필요합니다.

예외 탐지의 설정 3가지

감독(Supervised)

감독되는 데이터는 사전 준비를 갖추고 있어 각 데이터 포인트에 "공칭" 또는 "예외" 라벨이 적용되어 있습니다. 모든 예외는 모델이 학습할 수 있도록 사전에 식별됩니다.

깨끗함(Clean)

모든 데이터 포인트에 “공칭” 라벨이 적용되어 있으며 “예외” 포인트에는 라벨이 적용되어 있지 않습니다. 깨끗한 세트 내 모든 데이터 포인트는 "공칭"으로 추정되기 때문에 깨끗한 데이터는 예외 탐지 역할이 아닌 데이터 모델러 역할을 합니다.

비감독(Unsupervised)

비감독 데이터는 “공칭” 또는 “예외” 포인트에 라벨이 적용되지 않습니다. 포인트가 “공칭”인지 “예외”인지를 판단하는 것은 데이터 모델러에게 달려 있습니다. 정확한 결과에 대한 기반이나 이해가 없습니다.

교육 데이터에 포함되지 않은 새로운 관찰에서 관찰되지 않은 패턴을 식별하는 프로세스입니다.

예외를 가장 쉽게 탐지하는 방법은 데이터 스프레드에서 트렌드나 평균값, 중간값, 최빈수와 같은 일반적인 통계적 분포에서 벗어나는 것으로 보이는 불규칙적인 사항을 식별하는 것입니다.

머신 러닝을 사용한 예외 탐지와 상태 모니터링 방법

디지털 혁신

디지털화와 4차 산업혁명으로도 알려진 디지털 혁신은 기술과 데이터를 사용하여 생산성과 효율성을 향상합니다. 기계와 장치가 연결되고 셀 수 없이 많은 곳에 방대한 데이터를 전송할 수 있게 되면서 점점 더 많은 데이터가 제공되고 있습니다. 목표는 데이터에서 확인된 정보를 추출하고 분석하여 비용과 다운타임을 줄이는 것입니다. 여기에는 머신 러닝과 데이터 분석이 커다란 역할을 합니다.

상태 모니터링

각각의 복잡성과 상관없이 모든 기계는 상태가 저하됩니다. 그렇다고 해서 기계가 수명을 다했거나 가동을 중단해야 하는 것은 아니며 유지관리를 통해 최대의, 그리고 최적의 성능으로 복구해야 합니다. 분석을 위한 대규모 데이터 세트에는 기계에 유지관리 또는 교체가 필요함을 예측 또는 알려주는 예외가 발생할 수 있습니다.

밀도 기반 접근 방식

밀도 기반 예외 탐지

밀도 기반 예외 탐지는 모든 공칭 데이터 포인트가 서로 가까이 위치해 있으며 예외는 멀리 떨어져 있다는 가정에 따릅니다. 간단하고 매개변수가 없는 k-NN(k-nearest neighbors) 알고리즘을 기반으로 합니다. k-NN은 보통 맨해튼, 민코프스키, 해밍, 유클리드와 같은 거리 측정치의 유사성에 따라 데이터를 분류하는 데 사용됩니다.

클러스터링 기반 예외 탐지

클러스터링은 유사한 데이터 포인트가 유사한 클러스터 또는 그룹에 속하는 경향이 있으며, 이는 로컬 중심(모든 포인트의 평균)에서의 거리에 따라 결정된다는 가정을 바탕으로 합니다. 클러스터링 알고리즘 k-평균값은 유사한 데이터 포인트의 “k” 클러스터를 생성합니다. 예외는 “k” 클러스터를 벗어나는 모든 포인트입니다.

SVM(Support Vector Machine) 기반 예외 탐지

SVM은 보통 감독형 학습을 사용하지만 비감독형 학습 환경에서도 예외를 식별할 수 있는 옵션이 있습니다. 매끄러운 경계선이 학습되어 교육 세트에 적용되고, 정상적인 데이터 인스턴스는 경계선 내에서 클러스터를 형성하며, 예외는 학습된 경계선을 벗어나는 비정상 현상으로 식별됩니다.

시계열 데이터는 시간 경과에 따라 수집된 일련의 값입니다. 각 데이터 포인트마다 데이터 포인트가 수집된 날짜와 시간, 그리고 데이터 포인트 값 등 총 2개의 메트릭이 있습니다. 데이터는 지속적으로 수집되고 자체적인 투영의 역할을 하는 것이 아니라 주로 미래의 이벤트를 예측하는 데 사용됩니다. 시계열 예외를 사용하여 다음을 탐지할 수 있습니다.

  1. 활성 사용자
  2. 웹 페이지 뷰
  3. CPC
  4. CPL
  5. 이탈률
  6. 해지율
  7. 평균 주문 값
  8. 모바일 앱 설치

시계열 예외 탐지는 식별된 KPI의 전형적인 동작에 대한 기준선을 확립합니다.

  • 데이터 클리닝
  • 도입 탐지
  • 사기 행위 탐지
  • 시스템 상태 모니터링
  • 센서 네트워크의 이벤트 탐지
  • 에코시스템 교란

서비스 성능에 대한 예외 탐지

탐지에 대해 대응적인 접근 방식을 취하면 다운타임과 성능 문제로 인해 솔루션을 찾기 전에 영향이 발생할 수 있습니다. 성능의 예외를 탐지하면 비즈니스 서비스에서 문제가 발생할 수 있는 시점과 원인을 예측할 수 있습니다. 대부분의 산업에서 활용할 수 있습니다. 예를 들어 활용할 수 있는 두 가지 산업은 다음과 같습니다.

  • 통신: 통신 분석을 통해 방대한 데이터 세트를 확보할 수 있으며 성능을 저하시킬 수 있는 지연 시간, 지터, 낮은 통화 품질을 탐지하고 방지하기 위해서는 첨단 솔루션이 중요합니다.
  • 광고 기술: 광고 경매에서 발생하는 트랜잭션의 속도로 인해 복잡한 애플리케이션 성능을 모니터링하기 어려울 수 있습니다. 예외 탐지는 애플리케이션이 충돌하기 전에 애플리케이션 문제를 찾을 수 있어 광고 작업 중 다운타임을 방지합니다.

제품 품질을 위한 예외 탐지

제품은 최소한의 오류로 원활하게 작동해야 합니다. 제품의 자연스러운 진화에 따라 새로운 기능부터 A/B 테스트까지 모든 측면에서 동작 예외가 발생할 수 있으며, 동작 예외의 지속적인 모니터링을 통해 다운타임 또는 지속적인 문제를 방지할 수 있습니다. 대부분의 산업에서 활용할 수 있지만 대표적인 2가지 예는 다음과 같습니다.

  • 전자상거래: 예외 탐지는 가격 오류 또는 계절성의 비정상적인 변경과 같은 비정상적인 동작이나 제품 품질 문제를 찾을 수 있습니다.
  • 핀테크: 금융 산업에서는 밀리초 단위로 거래하며, 애플리케이션 감독 거래가 안전하고 일관적이라는 신뢰가 필요합니다. 예외 탐지는 애플리케이션 성능 및 운영에서 비정상적인 모든 사항을 관찰함으로써 다운타임 또는 오류를 방지할 수 있습니다.

사용자 경험을 위한 예외 탐지

사이트에서 서비스 성능 저하가 발생하면 사용자 경험이 부정적일 수 있습니다. 기업은 예외 탐지를 통해 고객이 당황하고 수익 손실로 이어지기 전에 모든 오류에 대응할 수 있습니다. 이러한 방식으로 예외 탐지를 활용할 수 있는 산업은 다음과 같습니다.

  • 게임: 게임은 복잡하기 때문에 순열의 복잡성을 수동으로 모니터링하는 일은 불가능에 가깝습니다. AI(인공 지능)는 사용자 경험의 문제와 오류에 대응할 수 있습니다.
  • 온라인 비즈니스: 온라인 비즈니스는 성공을 위해 UX를 주로 사용합니다. IT 팀은 API 오류, 서버 다운타임, 로드 시간 오류를 감지하고 완화해야 합니다. 예외 탐지를 통한 신속한 근본 원인 분석을 통해 문제를 빠르게 찾아 내어 다운타임이 거의 없이 플랫폼, 데이터 센터, 운영 체제가 수리를 받을 수 있습니다.

  • 자동화된 예외 탐지는 실시간으로 정확한 통찰력을 제공함과 동시에 순위, 탐지, 데이터 그룹화를 제공합니다. 따라서 대규모 데이터 분석가 팀이 필요하지 않습니다.
  • 감독형 및 비감독형 머신 러닝: 머신 러닝은 감독 또는 사람의 상호작용 없이 작동하는 것이 이상적입니다. 하지만 소수의 분석가들이 기준선 데이터를 제공하고 가끔 머신 러닝 프로그램을 모니터링해야 합니다.
  • 하이브리드: 특정 예외를 위한 수동 규칙 수립의 유연성을 제공하는 확장된 예외 탐지입니다.

예외 탐지에는 솔루션을 빌드할 것인지, 아니면 시스템을 구매할 것인지에 대한 질문이 따릅니다. 의사 결정 프로세스에서 고려해야 할 중요한 사항은 다음과 같습니다.

  • 회사 규모
  • 처리할 데이터의 양
  • 내부 개발 업무 수용량
  • 확장 계획
  • 이해 관계자의 요구 사항
  • 예산 요구 사항
  • 팀 규모
  • 내부 데이터 과학 전문성

비즈니스에 따라 확장되는 역량

ServiceNow를 사용하여 문제가 발생하기 전에 문제를 예측할 수 있습니다.