혜니니의 공부방

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 24일차 본문

공부 기록/데이터분석

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 24일차

니니혜 2023. 3. 15. 22:01

23.03.15

#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석

야근하고와서.. ㅠㅠ 힘들어 죽겠다.... 오늘 결국 운동도 못갔음 ㅎ 

이제 근데 강의도 얼마 안남았고, 30일 챌린지도 곧 끝나간당~ 


1. 군집화 Clustering

 

지도학습 Supervised Learning

- 설명변수 x들과 종속변수 y와의 관계를 잘 표현할 수 있는 점수 F를 찾는 값.

 

비지도학습 Unsupervised Learning

- 설명변수 x로부터 특징/패턴을 추출할 수 있는 모델을 생성하는것. 

 

 

2. 분류 Classification vs 군집화 Clustering

: 분류는 범주의 수 및  각 개체의 범주 정보를 사전에 알 수 있으며, 개체의 입력 변수값들로부터 범주 정보를 유추하여 새로운 개체에 대해 가장 적합한 범주로 할당하는 문제 (Supervised Learning)

 

:군집화 Clustering은 군집의 수, 멤버십 등이 사전에 알려져 있지 않으며 최적의 구분을 찾아가는 문제(Unsupervised Learning)

 

3. 군집화 평가지표

- External: 정답 레이블과의 비교를 통해 성능 평가(현실적으로 불가능)

- Inermal: 군집이 얼마나 컴팩트한가에 초점

- Relative: 군집이 얼마나 컴팩트한가 와 군집끼리 얼마나 다른가를 동시에 고려하고자 함

- Dumb Index: 모든 군간의 거리를 고려하는 값 

군집 내 거리 중 가장 작은값을 분자로, 군집의 지름 중 가장 큰값을 분모로 정의한다, 클수록 우수한 군집화 결과이다.

- Silhouett 실루엣 계수 

: 개체들 사이의 평균 거리

 

별첨_ 실루엣계수

- 클러스터링(군집화) 결과를 평가하는 지표로써 각 데이터별로 그 데이터가 속한 군 내의 (거리 기반) 유사도와 인접한 군의 유사도를 비교하는 지표

 

별첨_ 군집화의 방법

  • K-평균 군집화(K-means Clustering)
  • 디비스캔 군집화(DBSCAN Clustering)
  • 유사도 전파 군집화(Affinity Propagation Clustering)
  • 계층적 군집화(Hierarchical Clustering)
  • 스펙트럴 군집화(Spectral Clustering)

별첨_군집화의 성능지표

  • 조정 랜드지수(Adjusted Rand Index)
  • 조정 상호정보량 (Adjusted Mutual Information)
  • 실루엣계수 (Silhouette Coefficient)

 

 

 

 

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

http://bit.ly/3Y34pE0

 

 

Comments