개발자 끄적끄적

분류 정오행렬 본문

데이터 마이닝

분류 정오행렬

햏치 2023. 3. 20. 16:52

<분류기 성능의 판정(Classification)>
- 나이브 규칙(Naive Rule)
  - 예측 변수의 정보를 무시하고 모든 레코드를 빈도가 자주 발생하는 우세한(Prevalent)클래스의 일원으로 분류 혹은 평균값으로 예측
  - 때때로 벤치마크로 사용된다
    - 분류기의 성능이 나이브 규칙을 적용한 결과보다 우수하기를 희망
      - ex : (수치형) 예측변수는 무시하고 결과변수의 평균값을 사용, R-square
  - 예외 
    - 가치가 높지만 희귀한 결과를 내는 것을 찾는 것이 목표일 때, 나이브 규칙보다 더 나쁘게 함으로써
      성능이 더 좋을 수 있다




<분류 정오행렬(Classification Confusion Matrix) : 검증 데이터로부터 계산>
- 분류기는 학습 데이터로부터 구축
- 학습과 검증과 성능상 큰 차이는 과적합을 암시


<오분류율(Error Rate)>
- 정확도(Accurancy) = 1-err
- 클래스가 많다면, 오분류율은 다음과 같다
  - (잘못 분류된 레코드의 총합)/(전체 레코드)



<분류의 경향과 기준값(Cutoff)>
- 각각의 레코드에서, ("1"이 관심 클래스) 
  1. 클래스 "1"에 속할 확률(propensity:경향)을 계산
  2. 그 확률이 기준값보다 크면 "1"에 분로
  3. 여러 클래스이면 관심있는 클래스에 속할 확률이 기준값보다 크면 해당 클래스로 분류

- 기본 기준값은 0.50(class가 0/1인 경우)
  If 경향>0.50, "1"로 분류
  If 경향<=0.50, "0"으로 분류

- 다양한 기준값을 사용할 수 있다
  - 오분류 비용이 비대칭일 경우 사용

- 보통 오분류율은 기준값 = 0.50에서 가장 낮다(class가 0/1인 경우)