본문 바로가기

의학/통계(SPSS)

참고범위 산정 (Reference interval, outlier 제거) SPSS, Excel(엑셀)

728x90

참고범위(Reference interval, reference range)를 산정하는 방법은


CLSI guideline C28; Defining, Establishing, and Verifying Reference Intervals in the Clinical Laboratory

에 자세히 나와있습니다.

2018년 1월 현재, 2008년 11월에 나온 Approved guideline 3rd edition (C28-A3)이 최신입니다.


참고범위에 대한 자세한 내용은 CLSI guideline 원본을 봐야 하지만, 필요한 부분만 정리해보았습니다.


Cf) 요즘은 정상치, 정상수치, 정상범위라는 용어 보다는 참고치, 참고범위, 참고구간이라는 용어를 사용합니다.

어떠한 검사 결과를 해석할 때 참조하는 결과값의 범위가, 꼭 정상을 뜻하지 않을 수 있기 때문입니다.


1. 참고범위(Reference interval)

보통 2.5번째 백분위수 (2.5 percentile), 97.5번째 백분위수 (97.5 percentile) 사이를 참고범위로 정합니다.


n수가 적은 경우 2.5, 97.5 percentile을 구하지 못할 수도 있습니다.

5.0, 95.0 percentile과 구분되는 2.5, 97.5 percentile을 구하기 위한 최소 n수는 39 (100/2.5-1)개라고 합니다.


이는 최소 n수이고, 일반적으로 120개를 최소 n수로 추천합니다.


2. 2.5, 97.5 percentile 값 구하기


SPSS로 구할 수 있습니다.


SPSS에서 분석 - 기술통계량 - 빈도분석 을 실행합니다.


참고범위를 구하고 싶은 항목(Ex. 몸무게)을 변수에 넣고, 통계량을 클릭합니다.


통계량에서 백분위수에 2.5, 97.5를 추가합니다.

보통 평균과 표준편차도 같이 알면 좋으므로 클릭합니다.

이후 '계속'을 눌러 나오고 '확인'을 클릭합니다.


그러면 다음과 같이 결과가 나옵니다.


몸무게 평균은 4.77, 표준편차는 0.83

참고범위는 3.60-6.26 입니다.


3. Outlier(이상치) 제거

관측값에서 너무 벗어난 값(Outlier, 이상치)은 제외하고 참고범위를 구해야 한다고 합니다.

Outlier(이상치)를 찾는 방법은 여러 가지가 있습니다.

많이 쓰이는 방법은 Tukey1977년에 제안한 방법입니다.

(Tukey JW. Exploratory Data Analysis. Reading, MA: Addison-Wesley; 1977:688.)


Q1: 25 percentile

Q3: 75 percentile

IQR(Interquartile range) = Q3 - Q1

Lower boundary: Q1 - 1.5IQR

Upper boundary: Q3 + 1.5IQR

이와 같이 사분위수를 바탕으로 하한치, 상한치를 정하여

그 값을 벗어나는 관측 결과는 outlier로 생각한다는 것입니다.


(이는 Gaussian 분포를 따르는 자료에 적용할 수 있는 방법인데,

보통 n수가 충분하면 정규분포를 따르고 Gaussian 분포도 따르는 것 같습니다.)


이와 같은 방법으로 outlier를 제거한 후 참고범위를 구하는 것이 좋겠습니다.

제거하는 방법은, 일단 SPSS에서도 outlier를 검출하는 알고리즘이 있는 것 같습니다.


Outlier detection for a continuous field

IBM® SPSS® Analytic Catalyst uses the interquartile range (IQR) to identify outliers for a single, continuous field. A value is considered an outlier if one of the following conditions are true.

  • < 25th percentile - 1.5*IQR
  • > 75th percentile + 1.5*IQR

In other words, an outlier is outside the range [Q1 - 1.5*(Q3 - Q1), Q3 + 1.5*(Q3 - Q1)], where Q1 is the first quartile (25th percentile), and Q3 is the third quartile (75th percentile).


IBM의 SPSS support 페이지(링크)에 위와 같이 나와 있습니다.

이는 앞서 설명한 방법과 동일한 방법입니다.






홈페이지에는 나와있지만, SPSS 프로그램에서 outlier 판정을 적용하는 정확한 방법이나 증거를 찾을 수는 없었습니다.


따라서 저는 outlier를 제거하고 참고범위를 산정하기 위해 다음과 같은 전략을 사용했습니다.


  1) SPSS에서 Q1, Q3 (25, 75 percentile) 구하기 (위의 2. 에서 제시한 '빈도분석' 기능 활용)

  2) Outlier 정하는 위 방법대로 엑셀(Excel)에서 하한치, 상한치 구하기

  3) SPSS에서 '케이스 선택' 기능으로 2)에서 구한 하한치, 상한치 이내의 관측 결과만 선택하기

  4) 참고범위 구하기 (마찬가지로 위의 2. 에서 제시한 '빈도분석' 기능 활용)


SPSS의 '케이스 선택' 기능은

데이터 - 케이스 선택 으로 실행할 수 있으며

원하는 조건에 맞는 케이스만 추려서 분석할 수 있습니다.

(케이스 선택 기능은 다음에 자세히 다루겠습니다.)


정말로 하한치, 상한치를 벗어나는 값이 참고범위 산정에서 제외되었는지 확인하고 싶으면

엑셀(Excel)에서 데이터 - 필터 해놓고 해당 항목을 오름차순/내림차순 정렬해보면

하한치, 상한치를 벗어나는 것이 몇 개인지 눈으로 확인할 수 있습니다.

Countif 등 함수로 확인할 수도 있습니다.


감사합니다.

728x90