개발자 끄적끄적
분류 정오행렬 본문
<분류기 성능의 판정(Classification)>
- 나이브 규칙(Naive Rule)
- 예측 변수의 정보를 무시하고 모든 레코드를 빈도가 자주 발생하는 우세한(Prevalent)클래스의 일원으로 분류 혹은 평균값으로 예측
- 때때로 벤치마크로 사용된다
- 분류기의 성능이 나이브 규칙을 적용한 결과보다 우수하기를 희망
- ex : (수치형) 예측변수는 무시하고 결과변수의 평균값을 사용, R-square
- 예외
- 가치가 높지만 희귀한 결과를 내는 것을 찾는 것이 목표일 때, 나이브 규칙보다 더 나쁘게 함으로써
성능이 더 좋을 수 있다
<분류 정오행렬(Classification Confusion Matrix) : 검증 데이터로부터 계산>
- 분류기는 학습 데이터로부터 구축
- 학습과 검증과 성능상 큰 차이는 과적합을 암시
<오분류율(Error Rate)>
- 정확도(Accurancy) = 1-err
- 클래스가 많다면, 오분류율은 다음과 같다
- (잘못 분류된 레코드의 총합)/(전체 레코드)
<분류의 경향과 기준값(Cutoff)>
- 각각의 레코드에서, ("1"이 관심 클래스)
1. 클래스 "1"에 속할 확률(propensity:경향)을 계산
2. 그 확률이 기준값보다 크면 "1"에 분로
3. 여러 클래스이면 관심있는 클래스에 속할 확률이 기준값보다 크면 해당 클래스로 분류
- 기본 기준값은 0.50(class가 0/1인 경우)
If 경향>0.50, "1"로 분류
If 경향<=0.50, "0"으로 분류
- 다양한 기준값을 사용할 수 있다
- 오분류 비용이 비대칭일 경우 사용
- 보통 오분류율은 기준값 = 0.50에서 가장 낮다(class가 0/1인 경우)
'데이터 마이닝' 카테고리의 다른 글
분류기 ROC (0) | 2023.03.21 |
---|---|
파이썬 기초(if문, elif문, for문, while문, 함수, 모듈(Module), 패키지(Package), 클래스(Class), 생성자) (1) | 2023.03.09 |
데이터 마이닝 정의 및 목적 (0) | 2023.03.08 |