혜니니의 공부방
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 6일차 본문
23.02.25
#패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석
SST: 총 변동값, 개별 y의 편차제곱의 합
SSR : 설명된 변동값으로, 추정y의 편차제곱의 합이다. 경우에 따라 SSR로 표현하는 경우도 있음에 유의할 것,
SSE: 설명 안된 변동값으로. 잔차의 제곱합이다. 경우에 따라 sse로 표현하는 경우도 있음.
회귀모형의 적합도를 판단하는 것은 결정계수인 R^2이당.
R^2 = 1- SSE/SST = SSR/SST 따라서 결정계수는 0과 1 사이다. 결정계수는 상관계수의 제곱이고, 이는 회귀식이 자료를 얼마나 잘 설명하고 있는가를 나타내는 계수이다. 보통 0.65 이상이면 잘 설명한다고 하지만 과거 전공수업에서 0.7은 낮고 그래도 0.9는 넘어야하는 것 같다. 명확한 기준이 따로 있는 것은 아니다.
구글링을 해보면 연구자가 이유에 대해 충분히 설명 가능하다면 숫자에 대한 무리는 없다.
R2=1 : 회귀직선으로 y의 총변동이 완전히 설명된다.
R2=0: 설명할 수 없다.
따라서 이 숫자에 대해서 분석을 잘하였고 말고, 라기보다는 변수들 사이에 강한 선형관계가 있다고 이해하는게 좋다.
이유는 같은 데이터에서 다중 선형 회귀모형을 돌릴시에는 누가해도 같은 결과가 나오기때문에 이 수치가 회귀분석에 대하여 옳고 그름의 지표가 될수는 없다.
다만 이 단점은
- 유의하지않은 변수가 추가되어도 항상 증가한다는것
우리는 수정 결정계수의 개념을 알수 있는데
- 다중회귀분석에서 주로 이 값을 사용하고,, 변수의 수가 증가할수록 높아지며
독립변수와 데이터의 수를 고려한 결정계수이다.
- 수정된 결정계수는 이러한 단점을 앞에 계수를 곱해줌으로써 보정된다.
- 유의하지 않은 변수가 추가될 경우 수정 결정계수는 증가하지 않는다.
이 결론은 변수를 추가하는게 무조건 능사는 아니라는 점을 알 수 있음.
모형의 검증
- 예측변수와 반응변수 간 관계가 선형이다.
- 오차항들은 서로 독립관계를 가지며
- 오차항에 대한 분포는 정규분포를 따른다.
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'공부 기록 > 데이터분석' 카테고리의 다른 글
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 8일차 (0) | 2023.02.27 |
---|---|
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 7일차 (0) | 2023.02.26 |
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 5일차 (0) | 2023.02.24 |
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 4일차 (0) | 2023.02.23 |
패스트캠퍼스 강필성의비즈니스분석 30일 도전 챌린지! 3일차 (0) | 2023.02.22 |