혜니니의 공부방

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 12일차 본문

공부 기록/데이터분석

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 12일차

니니혜 2023. 3. 3. 22:43

23.03.03

#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석

 

으아아 한주가 끝났다. 패캠챌린지도 벌써 12일차... 꾸엥 30일 금방 채우겠다! 허허 꾸준한게 제일 어렵고 

쉽지않고만~ 아자아자 화이팅.. 오늘 진짜 너무힘들고 지치지만... 할일은 해야지 ㅠ 


1. 분류모형성능평가

  - 정오 행렬 기반 성능 평가 지표

> 학습된 데이터에 대해서 100% 정확한  모형을 만들면 좋은가? 

  : 전혀 그렇지않다. 모델이 학습 데이터에 존재하는 노이즈까지 외우게 되어 새로운 데이터 적용시 예측 성능이 저하되는 과적합(Overfitting)  현상이 발생하게 됩니다.

 

 

훈련데이터와 실제 데이터의  커다란 차이가 보일텐데. 이러한 그래프를 그려나가는 것을 과적합이라고 말한다.

 

 

 

 

 

 - 분류문제나 회귀문제를 풀 수 있는 다양한 알고리즘들이 존재한다.

- 어떤 알고리즘은 최적의 하이퍼파라미터 설정이 필요하다. ( 검증 Validation)

- 주어진 문제를 해결하기 위한 최적의 방법론을 선택하기 위해 개별 모델을 동등한 조건에서 평가할 필요가 있다.

   - 검증 데이터: 다양한 파라미터 조합 중 최적의 파라미터를 찾는데 주로 사용

   - 테스트 데이터: 여러 기계학습 알고리즘 중 최적의 알고리즘을 찾는데 주로 사용한다. 

 

 

* 정오행렬 Confusion Matrix.

 - 실제범주와 예측된 범주를 이용하여 생성한 C x C 행렬이다.

- 이건 추가로 구글에서 찾은 내용인데 ADsP를 공부했다면 누구나 쉽게 이해할 수 있다. 

정오행렬이라고만 말했을때는 무엇인지 이해가 난감하지만 이 표를 보니까 살짝 쉬워짐.

 

- TPR ( True Positive Rate ) : 실제 Class 1 중 잘 맞춘 것 == 민감도 == 재현율

    우리가 관심있는 것을 잘 맞췄는가( 실제값 중에서 잘 맞춘것 )

- FPR ( False Positive Rate ) : 실제 Class 0 중 못 맞춘 것

    내가 관심이 없는 것 중에 못 맞춘 것 ( 실제 값 중에 못 맞춘 것 )

- 특이도 (Specificity) : 실제 Class 0중에 잘 맞춘것 ( = 1- FPR)

    내가 관심이 없는 것 중에 잘 맞춘 것

- 정밀도( Precision ) : 예측 Class 1 중 잘 맞춘 것

    내가 예측한 것 중에 잘 맞춘 것

- F1 : 실제 잘 맞춘 것 + 예측 잘 맞춘 것 ( 재현율 up and 정밀도 up )

 

주 사용 예시: 제조 공정 데이터 분석에서의 불량 제품, 의료분야에서의 특정 질병 확진. 마케팅캠페인에 대한 반응 고객 등  사용한다.

 

 

 

 

 

 

 

 


본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

http://bit.ly/3Y34pE0

 

Comments