혜니니의 공부방
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 26일차 본문
23.03.17
#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석
1, 밀도기반군집화 DBSCAN
-데이터들의 밀도를 고려하여 군집을 찾음
-임의의 모양을 가진 군집 발견 가능
-이상치/노이즈로 생각되는 객체의 경우 군집을 할당하지 않을 수 있음
DBSCAN
- 가장 대표적인 밀도기반 군집화 알고리즘
- 목적: 유의한 군집을 찾기 위해 군집에 속하는 객체와 그렇지 않은 객체의 속성을 정량화하는 것.
- 아이디어: 군집은 일정 수준 이상의 밀도를 갖는 데이터들의 집합이다. / 이상치, 노이즈 데이터 주변의 밀도는 매우 낮을것이다.
* Naiive Approch
- 군집에는 두종류의 객체들이 존재함.
- 군집 내부에 존재하는 객처 Core points
- 군집의 가장자리에 존재하는 객체 Border points
- Core points들은 엡실론-neighborhood로 MinPts 이상의 객체를 가질 가능성이 높으나 Border points들은 그 가능성이낮아진다.
2. 별첨_
* 밀도 기반 알고리즘의 경우 이웃 데이터를 기준으로 군집을 형성하기 때문에 불특정한 형태를 가지게 된다. 이 말은 즉, 데이터의 형태가 불특정한 분포의 형태를 띨 때, 밀도 기반 군집을 이용하면 적절하다! 또한, 지정된 밀도 안에 속하지 못해 군집에 포함되지 못한 데이터는 잡음(noise) or 이상치(outlier)로 판단할 수 있으며 이를 이용해 Anomaly detection에 활용할 수 있다.
* * 군집화 절차
DBSCAN 알고리즘의 군집화 절차를 정리하면 다음과 같다.
(1) (반경)과 MinPts를 설정한다.
(2) 데이터로부터 코어점의 조건을 만족하는 임의의 점을 선택한다.
(3) 밀도-도달가능한 점들을 뽑아서 코어점과 경계점을 구분하고, 이에 속하지 않은 점들을 잡음으로 구분한다.
(4) -반경 안에 있는 코어점들을 서로 연결한다.
(5) 연결된 코어점들을 하나의 군집으로 형성한다.
(6) 모든 경계점들은 어느 하나의 군집에 할당한다. (여러 군집에 걸쳐있는 경우, 반복 과정에서 먼저 할당된 군집으로 할당)
* * * 밀도기반군집분석에 관한 관련 논문
https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=DIKO0015920161&dbt=DIKO
[논문]밀도 기반 군집분석에 대한 요약 연구
군집분석은 비지도 학습 방법으로 유사한 데이터를 그룹화하여 군집을 형성한다. 밀도 기반 군집분석은 밀도에 관한 측도를 기준으로 군집을 정의하는 방법으로 다른 군집분석 방법이 가지고
scienceon.kisti.re.kr
* * * * DBSCAN을 적용할 때는 특정 군집 개수로 군집을 강제하지 않는 것이 좋습니다. DBSCAN알고리즘에 적절한 eps와 min_samples파라미터를 통해 최적의 군집을 찾는 게 중요
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'공부 기록 > 데이터분석' 카테고리의 다른 글
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 28일차 (0) | 2023.03.19 |
---|---|
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 27일차 (0) | 2023.03.18 |
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 25일차 (0) | 2023.03.16 |
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 24일차 (0) | 2023.03.15 |
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 23일차 (0) | 2023.03.14 |