혜니니의 공부방

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 23일차 본문

공부 기록/데이터분석

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 23일차

니니혜 2023. 3. 14. 21:30

23.03.14

#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석

오늘은 화이트데이래~~~ 평소에 신경도 안쓰고살았는데 ㅋㅋㅋㅋ 회사 다니니 더 챙기는듯. 


1. 연관규칙분석, 장바구니 분석

이러한 장바구니 분석은 각 상품 간의 연관 규칙을 이용하여 분석하게 되는데요,

A라는 상품과 B라는 상품이 서로 연관성이 있다고 하면 A->B라고 하는 연관 규칙을 만들 수 있습니다.

 

하지만 상품이 수백, 수천개라면 이러한 연관 규칙도 엄청나게 많이 생성되어서

이 중에 과연 어떤 연관 규칙이 가장 크리티컬하게 사용될 수 있는지 평가가 필요합니다.

 

이러한 연관 규칙 평가에는 3가지 척도가 쓰이는데 바로 '지지도, 신뢰도, 향상도' 라고 하는 척도 입니다.

 

   1. 지지도(Support)

 

전체 거래항목 중 상품 A와 상품 B를 동시에 포함하여 거래하는 비율을 의미하는데요,

A -> B 라고 하는 규칙이 전체 거래 중 차지하는 비율을 통해 해당 연관 규칙이 얼마나 의미가 있는 규칙인지를 확인

 

지지도 = P(A∩B)  :  A와 B가 동시에 포함된 거래 수 / 전체 거래 수

 

   2. 신뢰도(Confidence)

 

상품 A를 포함하는 거래 중 A와 B가 동시에 거래되는 비중으로,

상품 A를 구매 했을 때 상품 B를 구매할 확률이 어느정도 되는지를 확인

 

신뢰도 =  P(A∩B) / P(A)  :  A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수

 

   3. 향상도(Lift)

 

상품 A의 거래 중 항목 B가 포함된 거래의 비율 / 전체 상품 거래 중 상품 B가 거래된 비율

(A가 주어지지 않았을 때 B의 확률 대비 A가 주어졌을 때 B의 확률 증가 비율)

 

향상도 = P(A∩B) / P(A)*P(B)  = P (B|A) / P (B)

:  A와 B가 동시에 일어난 횟수 / A, B가 독립된 사건일 때 A,B가 동시에 일어날 확률

 

품목 A와 B사이에 아무런 관계가 상호 관계가 없으면 향상도는 1이고.  향상도가 1보다 높아질 수록 연관성이 높다고 할 수 있습니다. 이것은 또한 향상도가 1보다 크거나 작다면 우연적 기회(random chance)보다 우수하다고도 해석

 

 

2. 별첨_ Rakesh Agrawal, Tomasz Imielinski, Arun N. Swami: Mining Association Rules between Sets of Items in Large Databases. SIGMOD Conference 1993: 207-216

연관 규칙 분석은 왜 비지도학습인가?
지도학습에서 학습한 바와 같이 어떤 문제에 대한‘정답’에 해당하는 사전정보가 없는 상태(비지도 상태, 선생님이 답을 알려 주지 않는 상황)에서 유용한 정보나 패턴을 탐색적으로 발견하기 때문이다.
비지도 학습은 목적변수(혹은 반응변수, 종속변수, 목표변수, 출력값)에 대한 정보 없이 학습이 이루어지며, 예측(회귀/분류)의 문제보다는 주로 현상의 기술(Description)이나 특징 도출, 패턴 도출 등의 문제에 활용된다.
1990년도 초반에 IBM의 라케시 아그라왈(Rakesh Agrawal)이 영국의 Marks & Spencer 마켓에서 CRM(고객 관계 관리, Customer Relationship Management) 시스템을 바탕으로 소비자 분석을 실시했다. 
Marks & Spencer의 임원이 IBM의 정보 검색 전문가인 라케시 아그라왈에게 데이터베이스 문제에 대한 조언을 요청했기 때문이었다. 해당 백화점은 온갖 종류의 데이터를 수집하고 있었지만 어떻게 해야 할지 몰랐다.
그래서 아그라왈과 그의 팀은 개방형 쿼리를 요청하기 위한 알고리즘을 고안하기 시작했고, 결국 데이터 마이닝 과학에서 반드시 읽어야 할 1993년 논문을 저술했다. 이 보고서는 650개 이상의 다른 연구에서 인용되었으며 동종 논문 중 가장 널리 인용된 논문 중 하나


본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

http://bit.ly/3Y34pE0

Comments