혜니니의 공부방

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 14일차 본문

공부 기록/데이터분석

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 14일차

니니혜 2023. 3. 5. 19:03

23.03.05

#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석

 

 

벌써 2주차다~~~~~ 갹 

이제 의사결정나무입니당!!! 주말영화도보고 공부도하고 혼자만의 시간을 야무지게 보냈다. 

히히히 

 


어떤 1개의 알고리즘이 모든 상황에서 다른 알고리즘보다 우월하다는 개념을 내릴수는 없다.

 

1. 의사결정나무 Decision Tree 

의사결정나무는 데이터를 분석하여 이들 사이에 존재하는 패턴을 예측 가능한 규칙들의 조합으로 나타내며, 그 모양이 ‘나무’와 같다고 해서 의사결정나무라고 한다. 

 목적ㅣ 한번에 하나씩의 설명변수를 사용하여 정확한 예측이 가능한 규칙들의 집합을 생성한다. 최종 결과물은 나무를 뒤집어놓은 형태인 규칙들의 집합이다.

모티스토리에서 가져온 이진트리(왼) / 의사결정나무 모형(오)

 

자료구조 이론에서는 이진트리와 구조가 비슷하다. :) 

 

 용어

   - 노드: 입력 데이터 공간의 특정영역

   - 부모노드: 분기split 전 노드

   - 자식노드: 부모노드로부터 분기 후 파생된 노드

   - 분기 기준: 한 부모 노드를 두개 이상의 자식 노드들로 분기하는데ㅐ 사용되는 변수 및 기준 값

   - 시작/뿌리노드 : 자식노드만 존재하며, 부모노드는 존재하지않음

   - 말단/잎새노드: 부모노드만 존재하고, 자식노드는 없다.

 

Why? 장점: 결과를 사람이 이해할 수 있는 규칙의 형태로 제작한다. 이게 90%의 장점에 해당한다. 

 - 데이터의 사전 전처리를 최소화한다. (정규화/ 결측치 처리 등을 하지 않아도 된다.)

- 수치형변수와 범주형 변수를 함께 다룰 수 있다.

- 초보도 모델을 돌리는데 어렵지 않다. ADP 할때 실기에서 무난하게 쓰는 것 같다. 

 

핵심 아이디어- 

1. 재귀적 분기:Recursive Paritioning

 - 입력 변수의 영역을 두개로 구분하여 구분 전보다 구분 뒤의 각 영역의 순도(purity, homogeneity)가 증가하도록

2. 가지치기(Pruning the Tree)

- 과적합Overfitting을 방지하기 위하여 너무 자세하게 구분된 영역을 통합한다.

 

 

Classification And Regression Tree: CART

- 개별 변수의 영역을 반복적으로 분할함으로써 전체 영역에서의 규칙을 생성하는 지도학습기법이다. 

장점: if- then 형식으로 표현되는 규칙을 생성해 결과에 대한 예측과 함께 이유를 설명할 수 있는 장점이 있다.

 

 

 

지니계수 Gini - Index. 

:통계적 분산 정도를 정량화해서 표현한 값, 0과 1사이의 값을 가짐

계수가 높을수록 잘 분류되지 않았다는 것. 


본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

http://bit.ly/3Y34pE0

 

Comments