혜니니의 공부방

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 7일차 본문

공부 기록/데이터분석

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 7일차

니니혜 2023. 2. 26. 21:57

23.02.26 

#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석

 

어제까지 총 9개의 클립 완강했다.

하루에 2클립을 들은 날도 있었고, 오늘은 주말로 피곤하니 하나만 수강했다.

강의 모습을 직접 찍는건 쫌 그러니까... 필기를 적으면서 하다보니 어디 따로 기록하지는 않는다.

그리고 교수님이 설명해주신 것 외에도 따로 찾아보는게 좋다고 생각해 구글링해서 참고하는 편이다.


 

* 학습데이터에 대해서 100% 정확한 모형을 만들면 좋은것인가? 

No 그렇지않다. 과적합 발생가능성이 있다.

 

---- > 따라서 우리는 성능평가를 하기 위해 다양한 알고리즘을 사용한다. 

분류: 나이브 베이즈, 선형, K-인접,의사결정나무 등 

예측: 다중선형회귀, 인공신경망 등

 

어더한 알고리즘은 하이퍼파라미터의 설정이 필요하기도 하며

* 하이퍼 파라미터:모델링할 때 사용자가 직접 세팅해주는 값

 

우리는 주어진 문제를 해결하기 위해 개별 모델에서 동등한 조건에서 평가할 수 있게 테스트를 검증과 테스트를 나누어 사용한다.

- 검증: ex. 인공신경망의 은닉 노드는 몇개가 최적인지

- 테스트: ANN, RF, GEM, SVM 중에 어떤게 최고야? 

 

** 따라서 공정한 평가를 위한 데이터 분할 방식에 대해 파악하고, 데이터에 대해서 파악하고 어떤 방법을 선택할 것인지 골라야한다. 그래서 보통 모델을 비교할때 학습:검증:테스트를 6:2:2의 비율로 분할하여 학습시키기도 한다.

MAE / MAPE / RMSE 가 낮을수록 좋은 모형이다. 표준편차=변동성 이라고 보면 이해가 편하다. 

종종 시간정보를 반드시 고려해야하는 경우에는 시계열 데이터, Time-Series Cross Validation 기법을 활용하여 사용한다. 

지표의 종류
 - 평균오차 
    실제값에 비해 과대/과소 추정 여부를 판단한다.
    부호로 인해 잘못된 결론을 내릴 위험이 있음
    실제값이 추정값도다 크거나, 작은 부분이 있어서 좋은 지표라고 이야기하기 어려움

 - 평균절대오차 (MAE)
    실제값과 예측값 사이의 절대적인 오차의 평균을 측정

 - 평균절대비율오차(MAPE)
   MAE의 단점인 실제값과 예측된 값의 차이에 대한 정보만 제공하고 상대적인 차이에 대한 정보를 제공하지 못한다. 
  그래서 비율오차는 실제값대비 얼마나 예측 차이가 있는지 비율로 측정
  상대적인 오차율이 절대적인 오차 수치보다 중요한 분야에서 사용된다. 

 

 - RMSE 

   부호의 영향을 제거하기 위해 절대값이 아닌 제곱의 취한 지표

R= Root 

 

 

으으.. 어렵따,,, 그리고 교수님이 말씀해주시는 부분들 중에 예시를 들어 말씀해주시는 경우가 많은데 수업 모습에 대해서는 유출하면 안돼니까 그거에 대해 자세히 적기는 어렵기 때문에 개념정리만한다. ㅎㅎ 

 

오늘 첫 결과를 냈는데.. 음 잘 통과되었으면 좋겠다ㅠ 그래도 저 1일 1강의 듣고했다고요~~ 

전차수 복습을 위해 비슷한 내용도 작성하긴 했지만.. 


 

 

 

 

 

 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

http://bit.ly/3Y34pE0

Comments