본문 바로가기

공부매니아

[People Analytics] 로지스틱 회귀분석



역시 사람은 물어봐야한다.

끝없이 헤매고 있다가 작년에 피플 애널리틱스를 시작한 동료에게 하소연하였더니

로지스틱 회귀분석을 찾아보라고 한다.



※학습노트

* 로지스틱회귀분석(logistic regression analysis)
  - 이항 로지스틱 회귀(binominal regression analysis) 종속변수의 범주 수가 2개 일 경우 
  - 다항 로지스틱 회귀(binominal regression analysis) 종속변수의 범주 수가 3개 이상일 경우

* 큰 값 (연구 관심 결과인 '있음')에 해당하는 경우로 분류될 확률

* Odds(비) Odds ratio (비의 비율) 로짓(Odds에 로그)





12-1. 로지스틱 회귀분석이란? - 로지스틱 회귀분석 (1)

* OLS 회귀 분석은 종속 변수가 nominal & continuous여야 함  

* 이항변수가 종속변수인 경우 OLS를 적용하였을 때 무엇이 문제인지 확인하는 예시를 다룸 

 > 기존 회귀계수를 해석하는데 문제가 있음 (x가 1증가할 때 y가 b만큼 증가한다고 할 수 없음), 0도 아닌 1도 아닌 예측값이 나옴

* 우리가 기대하는 것은 독립 변수가 1증가할 때 종속 변수가 1이 될 확률 >>> 엇, 내가 찾는 거 맞는 것 같다


12-2. 로짓과 로그오즈비란 - 로지스틱 회귀분석 (2)

* 종속변수가 이항변수인 경우 예) 성공/실패, 업/다운, 생존/죽음, Yes/No 등

로지스틱 회귀분석은, 

  - 이항 변수를 로짓이라는 개념을 통해 연속 변수처럼 바꾸어줌

  - 확률 개념 해석 가능

*오즈(Odds) = 확률 / (1-확)

*오즈비(Odd ratio)

*마이너스 무한대<로짓 = 로그(오즈비)<플러스 무한대


12-3.로지스틱 회귀분석을 해석해보자 - 로지스틱 회귀분석 (3)

* 일반 OSL & 로지스틱 분석 결과는 데이터의 유의미한 정도는 거의 비슷하게 나오나 해석이 다름

* estimate (회귀계수값)의 로그를 벗겨~

  how 

  엑셀에서 함수 exp(회귀계수) = 오즈비(odds ratio)

   - (오즈비-1) x 100은 %증가/감소로 해석 가능

*독립변수가 1단위 증가할때와 1단위 감소할때의 해석은 다름
 - {(1/(오즈비-1))=1} x 100으로 해석

*모든 독립변수 증감에 대해 종속 변수가 1(Y=1)이 되는 확률로 해석



12-3.로지스틱 회귀분석을 실습해보자 - 로지스틱 회귀분석 (4)

* 내가 가지고 있는 데이터로 따라해봐야지!

* jamovi > analysis > regression > binominal logistic regression

* 숫자인데 text로 읽히는 경우도 있어서 필요 시 데이터 속성 변경

  - norminal (명목척도), ordinal (순서척도), continuous (연속척도)