혜니니의 공부방

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 15일차 본문

공부 기록/데이터분석

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 15일차

니니혜 2023. 3. 6. 22:30

23.03.06

#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석

 

 


1. 가지치기 Pruning 

: 너무 자세하게 구분된 영역을 통합하는 것.

- 의사결정나무를 통한 분류 예측

- 해당 객체가 속하는 말단 노드에 속한 학습 객체들의 비율을 통해 판정

- 일반적으로 0.5를 분류 기준에 둔다.

 

재귀적 분기 Recursive Partitioning

: 입력 영역을 두가지로 분류

단점: 모든 말단노드의 순도가 100%일 때 종료된다.

y= f(x)+e 엡실론

 의사결정나무 일정이상에 커지면 일반적인 패턴을 찾게된다. = f(x) 

----- > Noise가 곧  패턴이 된다. = Full tree

 과적합의 문제를 내포하고 있으며, 이는 새로운 데이터에 대한 예측 성능 저하의 위험을 안고 있다.

 의사결정나무의 노드 수가 증가할 때, 처음에는 새로운 데이터에 대한 오분류율이 감소하나, 일정 수준 이상이 되면 오분류율이 증가하는 현상이 발생한다.

 

2. 비용 복잡도 Cost complexity)

의사결정나무의 비용복잡도, 낮을수록 우수하다.

Err(t)= 검증데이터에 대한 오분류율

L(t)= 말단노드의 수(구조의 복잡도)

a= Err(t)와 L(t)를 결합하는 가중치이다.

 

장점: 데이터전처리 필요 없음/수치형,범주형 데이터 상관없음

 

사전적 가지치기(Pre-Pruning)

:사후적 가지치기는 Full Tree를 생성한 뒤 다시 최적의 구조를 찾아 의사결정나무를 단순화시킨다.

현재의 가지치기보다 훨씬 먼저나온 개념이다. 나무가 다 자라기 전에 알고리즘을 멈추는 방법이다. 예를 들어 모든 인스턴스가 하나의 클래스에 속하거나 속성값이 같아지면 멈춘다.

 

-제약조건 예시

   - 분기전 후 Information Gain의 최저기준 / 분기 대상이 되는 노드에 속하는 최소 객체 수 / 의사결정나무가 가질 수 있는 최대 깊이들.

예를 들어 모든 인스턴스가 하나의 클래스에 속하거나 속성값이 같아지면 멈춤

연구자가 임의로 설정한 숫자보다 인스턴스가 적어지면 나무 그리기를 멈춘다거나 역시 연구자가 임의로 불순도 정도를 설정하여 해당 지니 계수/엔트로피에 도달하면 나무 그리기를 멈춤.

 

9. 불순도

 

-복잡성을 의미

- 해당 범주 안에 서로 다른 데이터가 얼마나 섞여 있는가?

- 다양할수록 불순도가 높아짐.

 

 


본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

http://bit.ly/3Y34pE0

Comments