혜니니의 공부방

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 6일차 본문

공부 기록/데이터분석

패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 6일차

니니혜 2023. 2. 25. 14:06

23.02.25 

#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석

 

 



SST: 총 변동값, 개별 y의 편차제곱의 합


SSR : 설명된 변동값으로, 추정y의 편차제곱의 합이다. 경우에 따라 SSR로 표현하는 경우도 있음에 유의할 것, 


SSE: 설명 안된 변동값으로. 잔차의 제곱합이다. 경우에 따라 sse로 표현하는 경우도 있음. 

회귀모형의 적합도를 판단하는 것은 결정계수인 R^2이당. 

 

R^2 = 1- SSE/SST = SSR/SST   따라서 결정계수는 0과 1 사이다. 결정계수는 상관계수의 제곱이고, 이는 회귀식이 자료를 얼마나 잘 설명하고 있는가를 나타내는 계수이다. 보통 0.65 이상이면 잘 설명한다고 하지만 과거 전공수업에서 0.7은 낮고 그래도 0.9는 넘어야하는 것 같다. 명확한 기준이 따로 있는 것은 아니다.

구글링을 해보면 연구자가 이유에 대해 충분히 설명 가능하다면 숫자에 대한 무리는 없다. 

R2=1 : 회귀직선으로 y의 총변동이 완전히 설명된다.

R2=0: 설명할 수 없다.

 

따라서 이 숫자에 대해서 분석을 잘하였고 말고, 라기보다는 변수들 사이에 강한 선형관계가 있다고 이해하는게 좋다. 

이유는 같은 데이터에서 다중 선형 회귀모형을 돌릴시에는 누가해도 같은 결과가 나오기때문에 이 수치가 회귀분석에 대하여 옳고 그름의 지표가 될수는 없다.


다만 이 단점은
- 유의하지않은 변수가 추가되어도 항상 증가한다는것
우리는 수정 결정계수의 개념을  알수 있는데 
- 다중회귀분석에서 주로 이 값을 사용하고,, 변수의 수가 증가할수록 높아지며
독립변수와 데이터의 수를 고려한 결정계수이다. 
- 수정된 결정계수는 이러한 단점을 앞에 계수를 곱해줌으로써 보정된다.
- 유의하지 않은 변수가 추가될 경우 수정 결정계수는 증가하지 않는다.
이 결론은 변수를 추가하는게 무조건 능사는 아니라는 점을 알 수 있음.

모형의 검증
- 예측변수와 반응변수 간 관계가 선형이다.
- 오차항들은 서로 독립관계를 가지며
- 오차항에 대한 분포는 정규분포를 따른다.

 

 

 


 

 

 

 

 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

http://bit.ly/3Y34pE0

 

Comments