혜니니의 공부방

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 26일차 본문

공부 기록/데이터분석

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 26일차

니니혜 2023. 3. 17. 22:10

23.03.17

#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석


1, 밀도기반군집화 DBSCAN

 

-데이터들의 밀도를 고려하여 군집을 찾음

  -임의의 모양을 가진 군집 발견 가능

  -이상치/노이즈로 생각되는 객체의 경우 군집을 할당하지 않을 수 있음

DBSCAN

- 가장 대표적인 밀도기반 군집화 알고리즘

- 목적: 유의한 군집을 찾기 위해 군집에 속하는 객체와 그렇지 않은 객체의 속성을 정량화하는 것.

- 아이디어: 군집은 일정 수준 이상의 밀도를 갖는 데이터들의 집합이다. / 이상치, 노이즈 데이터 주변의 밀도는 매우 낮을것이다.

* Naiive Approch

 - 군집에는 두종류의 객체들이 존재함.

 - 군집 내부에 존재하는 객처 Core points

 - 군집의 가장자리에 존재하는 객체 Border points

 - Core points들은 엡실론-neighborhood로 MinPts 이상의 객체를 가질 가능성이 높으나 Border points들은 그 가능성이낮아진다.

 

 

 

 

 

 

2. 별첨_ 

 

* 밀도 기반 알고리즘의 경우 이웃 데이터를 기준으로 군집을 형성하기 때문에 불특정한 형태를 가지게 된다. 이 말은 즉, 데이터의 형태가 불특정한 분포의 형태를 띨 때, 밀도 기반 군집을 이용하면 적절하다! 또한, 지정된 밀도 안에 속하지 못해 군집에 포함되지 못한 데이터는 잡음(noise) or 이상치(outlier)로 판단할 수 있으며 이를 이용해 Anomaly detection에 활용할 수 있다. 

 

* * 군집화 절차

DBSCAN 알고리즘의 군집화 절차를 정리하면 다음과 같다.

 

(1) (반경)과 MinPts를 설정한다.

(2) 데이터로부터 코어점의 조건을 만족하는 임의의 점을 선택한다.

(3) 밀도-도달가능한 점들을 뽑아서 코어점과 경계점을 구분하고, 이에 속하지 않은 점들을 잡음으로 구분한다.

(4) -반경 안에 있는 코어점들을 서로 연결한다.

(5) 연결된 코어점들을 하나의 군집으로 형성한다.

(6) 모든 경계점들은 어느 하나의 군집에 할당한다. (여러 군집에 걸쳐있는 경우, 반복 과정에서 먼저 할당된 군집으로 할당)

 

* * * 밀도기반군집분석에 관한 관련 논문

https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=DIKO0015920161&dbt=DIKO 

 

[논문]밀도 기반 군집분석에 대한 요약 연구

군집분석은 비지도 학습 방법으로 유사한 데이터를 그룹화하여 군집을 형성한다. 밀도 기반 군집분석은 밀도에 관한 측도를 기준으로 군집을 정의하는 방법으로 다른 군집분석 방법이 가지고

scienceon.kisti.re.kr

* * * * DBSCAN을 적용할 때는 특정 군집 개수로 군집을 강제하지 않는 것이 좋습니다. DBSCAN알고리즘에 적절한 eps와 min_samples파라미터를 통해 최적의 군집을 찾는 게 중요

 


본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

http://bit.ly/3Y34pE0

Comments