혜니니의 공부방

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 16일차 본문

공부 기록/데이터분석

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 16일차

니니혜 2023. 3. 7. 21:41

23.03.07

#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석

 

 

오늘 정말 힘든 하루다. ㅠ....  건강때문에 운동도 매일하는데 물라 운동하고 공부하는 돼지임.

목요일 연락은 빨리주려나... 끝까지 완주 제발 하고싶다. 나 진도는 많이 못뺐어도 하루 한강 들으면서 강의노트

정리하고이짜나요ㅠ 좀 봐줘~ 


 

1.  회귀나무 

 

이런 형태의 의사결정나무는 선형 회귀분석으로 추정하는 것이 적합하다.

대체적으로 제조업에서 이런 형태들이 나타난다.

이런 회귀노드에서는? 말단 노드의 예측값을 추정한다. 양 범주의 데이터를 보고 하는데. Split point라는게 있음. 이건 계단식의 회귀식으로 추정하면 이해가 쉬울 것 같다.

 

2. 회귀모형에서 불순도를 측정하는 과정

불순도 Impurity 측정

 Sum of sqared error : SSE / 잔오차제곱함

예시: 총 10개의 x,y값이 있고. (y1-평균y^)^2 이 제곱들의 합이 불순도다. 

 

Information Gain (정보획득량)  *그냥 Information Gain이고 직역한 것 같으니 영어를 쓰는게 편할 것 같음. 

- 회귀 의사결정나무의 지수를 구하는건 SSE(부모노드) - (오른쪽+왼쪽)= 나온 Split 포인트...

뭐지 근데 이거 넘 어렵다 이해가 잘 안돼서 뭔가 복습 한번 더 해야할 것 같다.

 

-티스토리에서 추가로 찾은 내용들 ------------------

 

* 의사 결정 나무는 불순도를 최소화(혹은 순도를 최대화)하는 방향으로 학습을 진행

* 불순도가 작을수록 획득량이 증가한다.  + 영향력도 작아짐 

* 불순도만으로는 정보 획득량을 설명하기 부족한 측면이 있ㅇ으므로 이럴 경우 가중치(weight)를 적용하곤 한다.

 

Weighted Information Gain

두 개의 데이터 세트 모두 불순도는 0이지만, 한쪽 데이터 세트가 더 의미있는 것처럼 보이기도 한다. 

이유는 데이터 개수가 충분히 많고, 따라서 이 분류가 우연이 아니라고 확신할 수 있기 때문임. 

 이는 단순한 불순도뿐만 아니라 데이터 세트의 크기도 중요하다는 이야기다.

생성된 데이터 세트의 크기에 따라 가중치가 적용된 정보 획득량(Weighted Information Gain)을 계산해볼 수 있음

분할하기 전 데이터에 비해 분할 후 생성된 데이터의 크기(비율)에 따라 가중치를 구해놓고 이를 불순도에 곱해서 정보 획득량을 구하면 된다.

 

 

 

3. 장점

 예측에 대한 설명을 제공한다.

 변수 선택 과정이 자동적으로 수행됨

 특별한 통계적 가정을 요구하지 않는다(귀무가설, 대립가설)

 결측치가 존재하는 상황에서도 모델 구축이 가능함

 화이트박스 모델을 사용한다.

 안정적이다.

 대규모의 데이터 셋에서도 잘 동작한다.

 

2. 단점

 한번에 하나의 변수만 고려하므로 변수간 상호작용을 파악하기 어려움


본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

http://bit.ly/3Y34pE0

 

 

 

Comments