혜니니의 공부방

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 13일차 본문

공부 기록/데이터분석

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 13일차

니니혜 2023. 3. 4. 21:44

23.03.04

#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석

호와아아악 어쩌다보니 벌써 !  13일차.. 2분의 1이 다 와간다.... 하는 챌린지와운동 등 챙길게 너무 바빠서 정신없지만 이거만 마치면 그래도 한숨 돌릴 것 같다! :- ) 아자아자 ㅠㅠ 

 

 


1. 분류모형 성능평가 2강 : AUROC 

: 일반적인 분류 알고리즘은 Positive Class에 속할 확률(또는 우도)값을 먼저 계산한 뒤 분류 기준값cut-off와의 비교를 통해 특정범주를 할당한다.

 - 분류 기준cut-off 값에 따른 정오행렬 변화가 나타나는데. 일반적으로는 특정범주에 속할 확률(probability) 혹은 우도(likelihood)값을 생성한다. 

 - 동일한 확률값 하에서도 cut-off를 어떻게 설정하는가에 따라서 분류성능이 크게 좌우되는상황이 발생할 수 있다.

 - 정확한 비교를 위해서는 독립적인 측정 지표가 필요하다.

 

그러한 지표를 AUROC 라고 한다. = AUC

AUROC는 area under the ROC (receiver operating characteristic) curve의 약어입니다. AUC라고도 한다. ROC 곡선(커브) 아래 부분의 넓이이다. 

ROC Curve의 생성절차는

 - 모든 개체를 P(interesting class)를 기준으로 내림차순 정렬한다.

 - 가능한 모든 Cut-off 경우에 대해 True Positive Rate and False Positive Rate를 계산한다.

 

ROC Curve는, - 이 곡선은 주로 의학분야에서 많이 사용된다.- 여기서 중요한 분류 기준값인 cut off는 검사 결과가 혈중농도, 혈압같이 연속형 변수로 측정되는 경우에 해당 검사 결과를 양성(Positive)와 음성(Negative)으로 나누는 기준이 되는 수치 가된다. 주로 검사법의 기준치로 이해하는 것이 훨씬 쉬울 것 같다.

 

AUC는, - 독립적인 알고리즘 성능평가 지표로 사용될 수 있음. 

 

비대칭 오분류 비용 Asymmetric misclassification costs.

= AUC와 ROC커브에 대한 내용을 머신러닝을 모르는 사람한테 설명할 때 사용하기 좋은 경제개념이다

 - 많은 비즈니스 문제에서 어느 하나의 범주를 정확하게 판별하는 것이 다르다.

 - 이러한 경우에서는 전체 집합에 대한 오분류가 증가하더라도 주요범주에 대한 정확도를 높이는 것이 효과적일 수 있다.

 

 


본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

http://bit.ly/3Y34pE0

 

Comments