역시 사람은 물어봐야한다.

끝없이 헤매고 있다가 작년에 피플 애널리틱스를 시작한 동료에게 하소연하였더니 로지스틱 회귀분석을 찾아보라고 한다.

 

※학습노트

* 로지스틱회귀분석(logistic regression analysis)
  - 이항 로지스틱 회귀(binominal regression analysis) 종속변수의 범주 수가 2개 일 경우 
  - 다항 로지스틱 회귀(binominal regression analysis) 종속변수의 범주 수가 3개 이상일 경우
 
* 큰 값 (연구 관심 결과인 '있음')에 해당하는 경우로 분류될 확률
* Odds(비) Odds ratio (비의 비율) 로짓(Odds에 로그)

 

 

12-1. 로지스틱 회귀분석이란? - 로지스틱 회귀분석 (1)

* OLS 회귀 분석은 종속 변수가 nominal & continuous여야 함  

* 이항변수가 종속변수인 경우 OLS를 적용하였을 때 무엇이 문제인지 확인하는 예시를 다룸 

 > 기존 회귀계수를 해석하는데 문제가 있음 (x가 1증가할 때 y가 b만큼 증가한다고 할 수 없음), 0도 아닌 1도 아닌 예측값이 나옴

* 우리가 기대하는 것은 독립 변수가 1증가할 때 종속 변수가 1이 될 확률 >>> 엇, 내가 찾는 거 맞는 것 같다

 

12-2. 로짓과 로그오즈비란 - 로지스틱 회귀분석 (2)

* 종속변수가 이항변수인 경우 예) 성공/실패, 업/다운, 생존/죽음, Yes/No 등

로지스틱 회귀분석은, 

  - 이항 변수를 로짓이라는 개념을 통해 연속 변수처럼 바꾸어줌

  - 확률 개념 해석 가능

*오즈(Odds) = 확률 / (1-확)

*오즈비(Odd ratio)

*마이너스 무한대<로짓 = 로그(오즈비)<플러스 무한대

 

12-3.로지스틱 회귀분석을 해석해보자 - 로지스틱 회귀분석 (3)

* 일반 OSL & 로지스틱 분석 결과는 데이터의 유의미한 정도는 거의 비슷하게 나오나 해석이 다름

* estimate (회귀계수값)의 로그를 벗겨~

 엑셀에서 함수 exp(회귀계수) = 오즈비(odds ratio)

   - (오즈비-1) x 100은 %증가/감소로 해석 가능

*독립변수가 1단위 증가할때와 1단위 감소할때의 해석은 다름
 - {(1/(오즈비-1))=1} x 100으로 해석
 
*모든 독립변수 증감에 대해 종속 변수가 1(Y=1)이 되는 확률로 해석
 
12-3.로지스틱 회귀분석을 실습해보자 - 로지스틱 회귀분석 (4)
* 내가 가지고 있는 데이터로 따라해봐야지!

* jamovi > analysis > regression > binominal logistic regression

* 숫자인데 text로 읽히는 경우도 있어서 필요 시 데이터 속성 변경

  - norminal (명목척도), ordinal (순서척도), continuous (연속척도)
반응형



두 집단을 비교하는데에 t-test가 적합하다고 하여 번갯불에 콩구워먹듯이 공부를 했는데.

공부를 다하고도 몰랐다. 내가 가지고 있는 데이터에는 적합하지 않다는 것을.


자, 이제 공부했으니 데이터 분석을 해볼까, 하고 프로그램을 열고 가만- 생각해보니 뭔가 이상하다.

내가 가지고 있는 데이터(강점/보완점)는 명목 변수다.


값이 이항분포일 때에는 (유/무) t-test로 분석하기 어렵고 chi-square test를 해야한다고 한다.

치-스퀘어 테스트? 

,,, 카이 스퀘어 테스트였다. 


정말 울고 싶군 ㅋ





다행히, t-test 를 공부했던 유튜브 채널에 카이 스퀘어 테스트도 있다!


※학습노트

9-1. 카이제곱 검정에 대해 알아보자

* 음, 그런데 여기서는 독립 변수, 종속 변수 모두 명목 변수일 때 사용하는 것이 카이제곱 검정이라고 한다...!

  내가 가진 데이터의 독립 변수는 연속 변수인데 (...) 이미 시무룩

* 관찰된 빈도가 기대되는 빈도와 의미있게 다른지 검증하기 위해 사용

* 관찰 빈도는 자료, 기대 빈도는 개념적으로 기대하는 수치와 유사한 개념

* 테이블이나 그래프를 볼일은 많지 않음 


9-2. 일원 카이제곱 검정을 계산해 보자

* 일원 카이제곱 검정 (One-way) 

* 검정의 유의성이 의미하는 것은 무엇인가 다르다, 정도

  - 그래서 카이제곱 검정을 적합도라고 부르기도 한다.


9-3. 이원 카이제곱 검정을 계산해 보자3

* 이원 카이제곱 검정 (Two-way) 

* 두 변수 모두 명목 변수일 때, 두 변수 사이에 어떠한 연관성이 있는지 확인해보는 것

* 카이제곱 감정은 인과관계가 아니고 상관관계 (연관성이 있다,)

* 기대 빈도 = (행합계 x 열합계) / 총합계


9-4. 카이제곱 검정을 넘어서

의료계에서 많이 쓰이는 편 

* 각 셀의 기대빈도가 5이상이어야 함

*...오...먼말인지 몰라지는....모르겠다 아무튼, 한계가 많은 검정임...안되겠다...

* 상대위험도는 두 확률의 차이가 아니라 비율로 나타냄 

* 오즈(odds)란 어떤 확율이 일어날 확율 / 일어나지 않을 확율 (행열을 바꿔서 계산해도 오즈비는 거의 비슷) 

* 두 명목 척도인 변수가 연관성이 있을 경우, 상관계수를 구하는 방법 > Contingency coefficient (분할계수/c계수), Phi and Cremer's V

  변수가 순위 척도 & 연관성이 있을 경우, 상관계수를 구하는 방법 > Kendall's tau-b, Gamma


9-5. 카이제곱 검정을 실습해보자

* Jamovi > frequency에 있음

* 결과가 유의하게 나와도 통계적으로 유의미한 설명하기 어려움


ㅠ-ㅠ 큰일났다! 이것도 아닌 것 같다...

반응형

 

이터 분석력 0인데 숙제는 해야하는 상태

 

조직 특성(구성)에 따라 리더십 진단 결과에 차이가 있는지 분석하기로 하였는데, 

리더십 진단 결과가 점수가 아니라 강점과 보완점이다.

 

하여, 특정 리더십 역량이 강점 또는 보완점으로 나온 집단과 그렇지 않은 집단을 비교해보기로 하고

두 집단을 비교하는 t-test를 공부해보기로함 

 

뭐하고 있는지도 모르겠으나, 

하다보면...길이 나오려나...ㅠ

 

 

 

 

우선 유튜브에서 듣기 편한 영상을 찾았고, 2편까지 보고, 정리하면서 보면 좋을 것 같아서 블로그를 열었다

 

학습하기에 좋은 영상은 

- 속도가 적절하고 (영상 속도 조절만으로는 어려운, 말의 템포 &스타일이 있다)

- 내용에 차근차근 접근하며 (나는 진짜 똥멍청이급 초보니까)

- 예시를 잘 들어주는 특징이있는 것 같다

 

아무튼, ※학습노트

3-3. 너무 빨리 먹으면 체합니다 -t-test(3) = z-test

* z-text & t-test는 본질적으로 같음. z-text는 모집단, t-test는 표본집단을 대상으로 함

 

* 정규 분포

   - 정규 분포의 아래 면적은 확률을 의미

   - 표준 정규 분포는 평균이 0이고 표준 편차가 1인 정규 분포 

   - 정규 분포를 표준 정규 분포로 바꾼 후,

     z-score = (값-평균)/표준편차

   - 표준정규분포표의 확률표 참고

 

* t-test의 질문 (3-2 복습)

  - A대학 남학생 평균 키 vs. B대학 남학생 평균키가 우연히 같은 확률은? 

    . 두 집단의 차이가 표준편차보다 현저히 작으면 ㅡ 그 차이에 큰 의미를 둘 수 없음

    . 두 집단의 차이가 표준편차보다 현저히 크면 ㅡ 그 차이에 큰 의미를 둘 수 있음

  - 우연히 발생했을 확률 = 정규 분포 면적을 활용한 확률

  - 다만, t-test는 정규분포가 아닌 다른 분포 곡선을 사용 

 

3-4 단순하지만 헷갈릴 수도... - t-test (4)

* 양측 검정 vs. 단측 검정

   - 양측 검정과 단측 검정의 차이는 대립 가설의 차이에서 발생

   - 양측은 0보다 크거나 작은 두 가지를 모두 포함하므로 분포 곡선의 양쪽 꼬리의 면접의 합이 5%에 들어갈만큼 크거나 작아야함

   - 단측은 0보다 크다(우측검정)와 0보다 작다(좌측검정)의 두 가지로 나누어볼 수 있고 한쪽 꼬리의 면적이 5%에 들어갈만큼 크거나 작아야 한다

   - 0을 기준으로 양측이든 단측이든 95%안에 들어오면 두 평균값의 차이는 우연히 발생한 것

 

3-5 이제야 t-test를 하다니 - t-test (5)

* t-value = 두 집단의 평균 차이 / (표본의 표준 편차 / 표본의 갯수)

  - 표본의 갯수가 많아지리 수록 t-value는 높아지고 정규 분포에 가까워짐 

* df(degree of freedom) = 표본 개수 - 1

* t-table에서 df와 confidence level의 critical value를 찾아 t-value와 비교 

 

3-6 종류별로 알아보자 - t-test (6)

* t-test의 종류 : two-sample t-test, one-sample t-test, paired t-test    

* 계산은 컴퓨터에 맡기자!!! >> 아주 마음에 드는 부분ㅋ

 

3-7 t-test를 컴퓨터에서 실습해보자 - t-test (7)

*Jamovi www.jamovi.org

 - 영문으로 작성된 데이터만 사용 가능

 

내일 데이터 분석해보면 뭐라도 나오겠지.

희망을 가지고 여기까지.

반응형

+ Recent posts