lof

가장 인접한 k개의 이웃을 기준으로 각 점의 밀도를 계산하고, 인접한 이웃과의 상대적인 밀도 비율을 비교하여 LOF(Local Outlier Factor) 지수를 계산합니다.

명령어 속성

항목	설명
명령어 유형	가공 쿼리
필요 권한	없음
라이선스 사용량	해당 없음
병렬 실행	지원
분산 실행	분석 노드에서 실행 (reducer)

문법

입력 데이터를 대상으로 LOF 지수를 계산하려면

lof [k=INT] [eps=DOUBLE] [optimize={t|f}] [cores=INT] FIELD, ... [by GRP_FIELD, ...]

서브쿼리로 학습 데이터를 조회한 후 입력 데이터의 LOF 지수를 계산하려면

lof [k=INT] [eps=DOUBLE] [cores=INT] FIELD, ... by GRP_FIELD, ... [ SUBQUERY ]

옵션

k=INT: 계산에 사용할 이웃 노드 수. 1 이상의 양수여야 합니다. (기본값: 10)
eps=DOUBLE: 데이터 간 최소 거리 조정 계수. 데이터 간 거리의 합을 나눌 때 무한으로 발산하지 않도록 조정합니다. 0 초과 1 이하의 값이어야 합니다. (기본값: 0.00001)
optimize={t|f}: 최적화 알고리즘 사용 여부 (기본값: t)

t: 최적화 알고리즘을 사용합니다.
f: 최적화 알고리즘을 사용하지 않습니다.

cores=INT: LOF 지수 계산에 사용할 스레드 수. 1 이상 10,000 이하의 값이어야 합니다. (기본값: 1)

대상

FIELD, ...: LOF 지수 계산에 사용할 필드 목록. 쉼표(,)로 구분하여 여러 필드를 지정할 수 있습니다. 필드 값은 정수, 실수, 날짜와 같은 숫자형이어야 합니다.
[by GRP_FIELD, ...]: 그룹 필드 목록. 쉼표(,)로 구분하여 여러 필드를 지정할 수 있습니다. by 절을 지정하면 그룹 필드 값이 같은 레코드끼리 독립적으로 LOF 지수를 계산합니다.
[ SUBQUERY ]: 학습 데이터를 조회하는 서브쿼리. 서브쿼리를 지정하면 서브쿼리 결과로 LOF 모델을 먼저 구성한 후, 입력 레코드에 대해 LOF 지수를 계산합니다. 서브쿼리를 사용하려면 by 절을 함께 지정해야 합니다.

입력 필드

필드	타입	필수 여부	설명
FIELD	정수, 실수, 날짜	필수	숫자형 값을 포함한 필드. 숫자가 아닌 값을 포함하는 레코드는 무시합니다.
GRP_FIELD	모든 타입	선택	그룹 필드. 같은 값을 가진 레코드끼리 독립적으로 LOF 지수를 계산합니다.

출력 필드

필드	타입	설명
_lof	64비트 실수	LOF 지수. NaN인 경우 null을 할당합니다.
_lof_error	문자열	서브쿼리 모드에서 LOF 지수 계산 중 오류가 발생한 경우 오류 메시지를 할당합니다.

오류 코드

파싱 오류

오류 코드	메시지	설명
40801	lof 명령의 k 값은 1 이상의 양수여야 합니다.	`k` 값이 1 미만이거나 숫자가 아닌 경우
40802	lof 명령의 그룹 필드가 누락되었습니다.	`by` 절을 지정했지만 그룹 필드가 비어 있는 경우
40803	lof 명령의 대상 필드가 누락되었습니다.	대상 필드가 지정되지 않은 경우
40804	머신러닝 라이선스가 필요합니다.	머신러닝 라이선스가 없는 경우
40805	lof 명령의 eps 값은 0 초과, 1 이하의 양수여야 합니다.	`eps` 값이 범위를 벗어나거나 숫자가 아닌 경우
90204	'['가 짝이 맞지 않습니다.	서브쿼리 대괄호가 짝이 맞지 않는 경우

런타임 오류

해당 사항 없음

설명

lof 명령어는 LOF(Local Outlier Factor) 알고리즘을 사용하여 각 레코드의 이상치 지수를 계산합니다. LOF 알고리즘은 각 데이터 점의 로컬 밀도를 k개의 최근접 이웃과 비교하여, 주변보다 밀도가 낮은 점을 이상치로 식별합니다.

각 레코드의 _lof 필드에 LOF 지수를 할당하며, 이 값은 다음과 같이 해석할 수 있습니다:

LOF > 1: 군집의 바깥쪽에 위치하며, 1보다 클수록 이상치일 가능성이 높습니다.
LOF ≈ 1: 군집의 경계에 위치합니다.
LOF < 1: 군집의 내부에 위치합니다.

서브쿼리 없이 사용하면 모든 입력 레코드를 수집한 후 LOF 모델을 구성하고, 각 레코드의 LOF 지수를 계산하여 출력합니다. by 절을 지정하면 그룹별로 독립적인 LOF 모델을 구성합니다.

서브쿼리를 지정하면 서브쿼리 결과로 LOF 모델을 먼저 구성한 후, 입력 레코드에 대해 LOF 지수를 계산합니다. 이 방식은 사전에 구성된 기준 데이터를 기반으로 새로운 데이터의 이상 여부를 판단할 때 유용합니다.

by 절을 사용하여 그룹별 LOF 지수를 계산할 때, 각 그룹의 레코드 수가 이웃 노드 수(k)보다 많아야 합니다. 레코드 수가 이웃 노드 수보다 적으면 모든 점이 하나의 군집으로 잡히므로 LOF 지수가 의미 있게 계산되지 않습니다.

분산 환경에서는 분석 노드에서 LOF 지수를 계산합니다.

사용 예

이 사용 예에서 조회하는 WEB_APACHE_SAMPLE 테이블을 준비하려면 쿼리 실습용 데이터를 참고하세요.

기본 LOF 지수 계산

table WEB_APACHE_SAMPLE
| eval bytes = double(bytes), status = double(status)
| lof bytes, status
| search _lof > 2
| fields _time, src_ip, bytes, status, _lof

bytes와 status 필드를 기준으로 LOF 지수를 계산하고, 이상치(LOF > 2)만 필터링합니다.

이웃 노드 수 지정

table WEB_APACHE_SAMPLE
| eval bytes = double(bytes), status = double(status)
| lof k=20 bytes, status
| fields _time, src_ip, bytes, status, _lof

이웃 노드 수를 20으로 지정하여 LOF 지수를 계산합니다.

그룹별 LOF 지수 계산

table WEB_APACHE_SAMPLE
| eval bytes = double(bytes), status = double(status)
| lof bytes, status by method
| fields _time, src_ip, method, bytes, status, _lof

method 필드 값이 같은 그룹별로 독립적으로 LOF 지수를 계산합니다.

서브쿼리를 사용한 LOF 지수 계산

table WEB_APACHE_SAMPLE
| eval bytes = double(bytes), status = double(status)
| lof k=15 bytes, status by method [
    table WEB_APACHE_SAMPLE
    | eval bytes = double(bytes), status = double(status)
  ]
| search _lof > 1.5
| fields _time, src_ip, method, bytes, status, _lof

WEB_APACHE_SAMPLE 데이터를 기준 모델로 구성한 후, 입력 데이터에서 이상치를 탐지합니다.

멀티 코어를 활용한 LOF 지수 계산

table WEB_APACHE_SAMPLE
| eval bytes = double(bytes), status = double(status)
| lof k=10 cores=4 bytes, status
| fields _time, src_ip, bytes, status, _lof

4개의 스레드를 사용하여 LOF 지수를 계산합니다.

호환성

lof 명령어는 소나 4.0 이전 버전부터 제공되었습니다.