혜니니의 공부방

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 8일차 본문

공부 기록/데이터분석

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 8일차

니니혜 2023. 2. 27. 21:49

23.02.27 

#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석

R, 파이썬 실습은..... 퇴근 후 하기에.. 오늘은 무리여서, 주말로 넘겼다.

로지스틱회귀분석으로 Jump~ 


1. 로지스틱 회귀분석

: 내가 아는 로지스틱 회귀분석의 개념은 0과 1을 구분하는 것이다. 딥러닝에 많이 쓰인다고 이해하고있다.

로지스틱 회귀분석은 우변의 범위에 대한 제한이 없기 때문에 종속변수(좌변)역시 범위의 제한을 받지 않기때문에 0/1의 이진값이 아닌 확률값을 종속변수로 사용하는 것은 적절하지 않다.

 

목적: 이진형의 형태를 갖는 종속변수에 대해 회귀식의 형태로 모형을 추정하는 것.

속성 ---- 

*종속변수 Y 자체를 그대로 사용하는 것이 아니라 Y에 대한 로직함수를 회귀식의 종속변수로 사용한다.

좌변의 범위는 [-무한대, 무한대] 

*로직함수는 설명변수의 선형결합으로 표현될 수 있음.

*로직함수의 값은 종속변수에 대한 성공 확률로 역산될 수 있으며, 이는 따라서 분류 문제에 적용할 수 있음

 

로지스틱 회귀분석에서 빠질 수 없는 것.

 

Odds = p는 1에 속할 확률이다,

Odds =  p / 1 - p   오즈비, 승산비라고도 한다. 성공확률/실패확률이기도 하다.

샘플링에서 생길 수 있는 편향을 최소화하여 통계적 의미를 강화한다.

일반적으로 대조군 연구에서 주로 사용한다. 

 


*확률값이 0부터 1로 변화함에 따라 승산인 오즈비는 0부터 무한대의 값을 가진다.  이렇게 되면 범위의 제약이없어지지만 여전한 비대칭성을 가지게 된다.


* 로그함수를 취해보는 것은 어떨까?

 


: 로그함수를 취하면 범위에 대한 제한이 없어지고 대칭성을 확보하게 된다. 따라서 성공확률 p가 작으면 음수값을 갖고, 성공확률 p가 크면 양수값을 가지게 된다.

 

결국에 로지스틱 회귀분석은 오즈비를 좌변에 두게 되며 이는 회귀식의 형태를 띄게 된다. 
1. 변수의 통계적 유의성을 알 수 있다.
2. 변수의 증감과 성공확률의 관계를 해석하고 이해할 수 있다.

이 2가지의 장점이 있기에 우변을 회귀식으로 사용한다.

결국엔 숫자놀음이다. 통계학적인 내용들이 대부분이게 된다. 흠.. 통계복습을 해야겠다. 

로그를 풀어주기 위해서는 양변에 지수를 곱하고, 성공확률에 대한 회귀식을 표현하면서 로지스틱 회귀분석에 대한 시그모이드 함수를 찾을 수 있다.

 


 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

http://bit.ly/3Y34pE0

 

Comments