혜니니의 공부방
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 12일차 본문
23.03.03
#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석
으아아 한주가 끝났다. 패캠챌린지도 벌써 12일차... 꾸엥 30일 금방 채우겠다! 허허 꾸준한게 제일 어렵고
쉽지않고만~ 아자아자 화이팅.. 오늘 진짜 너무힘들고 지치지만... 할일은 해야지 ㅠ
1. 분류모형성능평가
- 정오 행렬 기반 성능 평가 지표
> 학습된 데이터에 대해서 100% 정확한 모형을 만들면 좋은가?
: 전혀 그렇지않다. 모델이 학습 데이터에 존재하는 노이즈까지 외우게 되어 새로운 데이터 적용시 예측 성능이 저하되는 과적합(Overfitting) 현상이 발생하게 됩니다.
훈련데이터와 실제 데이터의 커다란 차이가 보일텐데. 이러한 그래프를 그려나가는 것을 과적합이라고 말한다.
- 분류문제나 회귀문제를 풀 수 있는 다양한 알고리즘들이 존재한다.
- 어떤 알고리즘은 최적의 하이퍼파라미터 설정이 필요하다. ( 검증 Validation)
- 주어진 문제를 해결하기 위한 최적의 방법론을 선택하기 위해 개별 모델을 동등한 조건에서 평가할 필요가 있다.
- 검증 데이터: 다양한 파라미터 조합 중 최적의 파라미터를 찾는데 주로 사용
- 테스트 데이터: 여러 기계학습 알고리즘 중 최적의 알고리즘을 찾는데 주로 사용한다.
* 정오행렬 Confusion Matrix.
- 실제범주와 예측된 범주를 이용하여 생성한 C x C 행렬이다.
- 이건 추가로 구글에서 찾은 내용인데 ADsP를 공부했다면 누구나 쉽게 이해할 수 있다.
정오행렬이라고만 말했을때는 무엇인지 이해가 난감하지만 이 표를 보니까 살짝 쉬워짐.
- TPR ( True Positive Rate ) : 실제 Class 1 중 잘 맞춘 것 == 민감도 == 재현율
우리가 관심있는 것을 잘 맞췄는가( 실제값 중에서 잘 맞춘것 )
- FPR ( False Positive Rate ) : 실제 Class 0 중 못 맞춘 것
내가 관심이 없는 것 중에 못 맞춘 것 ( 실제 값 중에 못 맞춘 것 )
- 특이도 (Specificity) : 실제 Class 0중에 잘 맞춘것 ( = 1- FPR)
내가 관심이 없는 것 중에 잘 맞춘 것
- 정밀도( Precision ) : 예측 Class 1 중 잘 맞춘 것
내가 예측한 것 중에 잘 맞춘 것
- F1 : 실제 잘 맞춘 것 + 예측 잘 맞춘 것 ( 재현율 up and 정밀도 up )
주 사용 예시: 제조 공정 데이터 분석에서의 불량 제품, 의료분야에서의 특정 질병 확진. 마케팅캠페인에 대한 반응 고객 등 사용한다.
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'공부 기록 > 데이터분석' 카테고리의 다른 글
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 14일차 (0) | 2023.03.05 |
---|---|
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 13일차 (0) | 2023.03.04 |
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 11일차 (0) | 2023.03.02 |
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 10일차 (0) | 2023.03.01 |
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 9일차 (0) | 2023.02.28 |