혜니니의 공부방
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 24일차 본문
23.03.15
#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석
야근하고와서.. ㅠㅠ 힘들어 죽겠다.... 오늘 결국 운동도 못갔음 ㅎ
이제 근데 강의도 얼마 안남았고, 30일 챌린지도 곧 끝나간당~
1. 군집화 Clustering
지도학습 Supervised Learning
- 설명변수 x들과 종속변수 y와의 관계를 잘 표현할 수 있는 점수 F를 찾는 값.
비지도학습 Unsupervised Learning
- 설명변수 x로부터 특징/패턴을 추출할 수 있는 모델을 생성하는것.
2. 분류 Classification vs 군집화 Clustering
: 분류는 범주의 수 및 각 개체의 범주 정보를 사전에 알 수 있으며, 개체의 입력 변수값들로부터 범주 정보를 유추하여 새로운 개체에 대해 가장 적합한 범주로 할당하는 문제 (Supervised Learning)
:군집화 Clustering은 군집의 수, 멤버십 등이 사전에 알려져 있지 않으며 최적의 구분을 찾아가는 문제(Unsupervised Learning)
3. 군집화 평가지표
- External: 정답 레이블과의 비교를 통해 성능 평가(현실적으로 불가능)
- Inermal: 군집이 얼마나 컴팩트한가에 초점
- Relative: 군집이 얼마나 컴팩트한가 와 군집끼리 얼마나 다른가를 동시에 고려하고자 함
- Dumb Index: 모든 군간의 거리를 고려하는 값
군집 내 거리 중 가장 작은값을 분자로, 군집의 지름 중 가장 큰값을 분모로 정의한다, 클수록 우수한 군집화 결과이다.
- Silhouett 실루엣 계수
: 개체들 사이의 평균 거리
별첨_ 실루엣계수
- 클러스터링(군집화) 결과를 평가하는 지표로써 각 데이터별로 그 데이터가 속한 군 내의 (거리 기반) 유사도와 인접한 군의 유사도를 비교하는 지표
별첨_ 군집화의 방법
- K-평균 군집화(K-means Clustering)
- 디비스캔 군집화(DBSCAN Clustering)
- 유사도 전파 군집화(Affinity Propagation Clustering)
- 계층적 군집화(Hierarchical Clustering)
- 스펙트럴 군집화(Spectral Clustering)
별첨_군집화의 성능지표
- 조정 랜드지수(Adjusted Rand Index)
- 조정 상호정보량 (Adjusted Mutual Information)
- 실루엣계수 (Silhouette Coefficient)
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'공부 기록 > 데이터분석' 카테고리의 다른 글
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 26일차 (0) | 2023.03.17 |
---|---|
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 25일차 (0) | 2023.03.16 |
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 23일차 (0) | 2023.03.14 |
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 22일차 (0) | 2023.03.13 |
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 21일차 (0) | 2023.03.12 |