목록공부 기록/데이터분석 (37)
혜니니의 공부방

23.03.06 #패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석 1. 가지치기 Pruning : 너무 자세하게 구분된 영역을 통합하는 것. - 의사결정나무를 통한 분류 예측 - 해당 객체가 속하는 말단 노드에 속한 학습 객체들의 비율을 통해 판정 - 일반적으로 0.5를 분류 기준에 둔다. 재귀적 분기 Recursive Partitioning : 입력 영역을 두가지로 분류 단점: 모든 말단노드의 순도가 100%일 때 종료된다. y= f(x)+e 엡실론 의사결정나무 일정이상에 커지면 일반적인 패턴을 찾게된다. = f(x) ----- > Noise가 곧 패턴이 된다. = Full tree 과적합의 문제를 내..

23.03.05 #패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석 벌써 2주차다~~~~~ 갹 이제 의사결정나무입니당!!! 주말영화도보고 공부도하고 혼자만의 시간을 야무지게 보냈다. 히히히 어떤 1개의 알고리즘이 모든 상황에서 다른 알고리즘보다 우월하다는 개념을 내릴수는 없다. 1. 의사결정나무 Decision Tree 의사결정나무는 데이터를 분석하여 이들 사이에 존재하는 패턴을 예측 가능한 규칙들의 조합으로 나타내며, 그 모양이 ‘나무’와 같다고 해서 의사결정나무라고 한다. 목적ㅣ 한번에 하나씩의 설명변수를 사용하여 정확한 예측이 가능한 규칙들의 집합을 생성한다. 최종 결과물은 나무를 뒤집어놓은 형태인 ..

23.03.04 #패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석 호와아아악 어쩌다보니 벌써 ! 13일차.. 2분의 1이 다 와간다.... 하는 챌린지와운동 등 챙길게 너무 바빠서 정신없지만 이거만 마치면 그래도 한숨 돌릴 것 같다! :- ) 아자아자 ㅠㅠ 1. 분류모형 성능평가 2강 : AUROC : 일반적인 분류 알고리즘은 Positive Class에 속할 확률(또는 우도)값을 먼저 계산한 뒤 분류 기준값cut-off와의 비교를 통해 특정범주를 할당한다. - 분류 기준cut-off 값에 따른 정오행렬 변화가 나타나는데. 일반적으로는 특정범주에 속할 확률(probability) 혹은 우도(likelih..

23.03.03 #패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석 으아아 한주가 끝났다. 패캠챌린지도 벌써 12일차... 꾸엥 30일 금방 채우겠다! 허허 꾸준한게 제일 어렵고 쉽지않고만~ 아자아자 화이팅.. 오늘 진짜 너무힘들고 지치지만... 할일은 해야지 ㅠ 1. 분류모형성능평가 - 정오 행렬 기반 성능 평가 지표 > 학습된 데이터에 대해서 100% 정확한 모형을 만들면 좋은가? : 전혀 그렇지않다. 모델이 학습 데이터에 존재하는 노이즈까지 외우게 되어 새로운 데이터 적용시 예측 성능이 저하되는 과적합(Overfitting) 현상이 발생하게 됩니다. 훈련데이터와 실제 데이터의 커다란 차이가 보일텐데...

23.03.02 #패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석 퇴근하고와서 강의듣기. 오늘 그래도 1주차 통과 ~~ ! ~~ ! 목요일하면, 금 토 일 남으면 벌써 절반이나 한다. 근데 오늘 강의는 1강이 살짝 짧고 교수님의 예시가 많아서 인터넷에서 추가 자료를 찾ㅇ아 넣엇다., 1. 다항 로지스틱 회귀분석 - 지금까지 로지스틱 회귀분석은 이범주 분류 Binary Classification를 풀기 위한 방식이다. 하지만 범주가 3개 이상인 다범주 분류에서는 ? - 기준 Baseline 이되는 범주를 설정하고, 이 범주 대비 다른 범주가 발생할 로그 승산을 회귀식으로 추정하는 ㅓㅅ이다. p / 1-p ..

23.03.01 #패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석 오늘로 나의 삼일절이 달라졌다. 그냥 평일에 공휴일 하루 있는거 너무 행복하고..ㅋ 재미있는 일 고심스러운일 가득한 오늘이다. 아. 하소연하고싶어라- 오늘 새로 산.. 귀여운 떡메! ㅎㅎ 근데 화면 다 찍으면 안됄거같은데 무슨사진을 넣어야할지 넘 어렵당... 1. 로지스틱 회귀분석의 성공확률 : 회귀식이 양수로 커지면 커질수록 e ^-a= 0에 가까워지고, 음수에 가까워질수록 무한대에 가까워지며 이 숫자는 0에 가까워진다. 실제 사례에서는 특정변수에 대한 확률값은 선형이 아닌 S-커브 형태를 따르는 경우가 많다. : 금융권에서 제일 많이 ..

23.02.28 #패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석 으으 오늘도 너무힘들고... 퇴근후는 너무 힘들다,, 1. 로지스틱 회귀분석: 학습 - 우도함수 : 개별객체의 우도함수는 해당 학습데이터가 정답 범주에 속할 확률 - 데이터의 생성 과정이 독립임을 가정할 수 있을때, 전체 데이터셋의 우도함수는 개별 객체의 우도함수를 모두 곱한 값이다. - 일반적으로 데이터 셋의 우도함수는 매우 작은값을 가지므로 로그 우도함수를 주로 사용한다. P (A,B) = P(A) * P(B) 우도함수값은 크면 클수록 좋다. - 첨도 2. 최대 우도 추정법 Maximun likelihood estimation - 학습..

23.02.27 #패스트캠퍼스 #패캠챌린지 #수강료0원챌린지 #환급챌린지 #직장인인강 #직장인자기계발#패캠인강후기 #패스트캠퍼스후기 #오공완 #강필성의비즈니스데이터분석 R, 파이썬 실습은..... 퇴근 후 하기에.. 오늘은 무리여서, 주말로 넘겼다. 로지스틱회귀분석으로 Jump~ 1. 로지스틱 회귀분석 : 내가 아는 로지스틱 회귀분석의 개념은 0과 1을 구분하는 것이다. 딥러닝에 많이 쓰인다고 이해하고있다. 로지스틱 회귀분석은 우변의 범위에 대한 제한이 없기 때문에 종속변수(좌변)역시 범위의 제한을 받지 않기때문에 0/1의 이진값이 아닌 확률값을 종속변수로 사용하는 것은 적절하지 않다. 목적: 이진형의 형태를 갖는 종속변수에 대해 회귀식의 형태로 모형을 추정하는 것. 속성 ---- *종속변수 Y 자체를 ..