본문 바로가기

공부매니아

[People Analytics] 종속 변수가 명목 변수일 때, 카이제곱 검정



두 집단을 비교하는데에 t-test가 적합하다고 하여 번갯불에 콩구워먹듯이 공부를 했는데.

공부를 다하고도 몰랐다. 내가 가지고 있는 데이터에는 적합하지 않다는 것을.


자, 이제 공부했으니 데이터 분석을 해볼까, 하고 프로그램을 열고 가만- 생각해보니 뭔가 이상하다.

내가 가지고 있는 데이터(강점/보완점)는 명목 변수다.


값이 이항분포일 때에는 (유/무) t-test로 분석하기 어렵고 chi-square test를 해야한다고 한다.

치-스퀘어 테스트? 

,,, 카이 스퀘어 테스트였다. 


정말 울고 싶군 ㅋ





다행히, t-test 를 공부했던 유튜브 채널에 카이 스퀘어 테스트도 있다!


※학습노트

9-1. 카이제곱 검정에 대해 알아보자

* 음, 그런데 여기서는 독립 변수, 종속 변수 모두 명목 변수일 때 사용하는 것이 카이제곱 검정이라고 한다...!

  내가 가진 데이터의 독립 변수는 연속 변수인데 (...) 이미 시무룩

* 관찰된 빈도가 기대되는 빈도와 의미있게 다른지 검증하기 위해 사용

* 관찰 빈도는 자료, 기대 빈도는 개념적으로 기대하는 수치와 유사한 개념

* 테이블이나 그래프를 볼일은 많지 않음 


9-2. 일원 카이제곱 검정을 계산해 보자

* 일원 카이제곱 검정 (One-way) 

* 검정의 유의성이 의미하는 것은 무엇인가 다르다, 정도

  - 그래서 카이제곱 검정을 적합도라고 부르기도 한다.


9-3. 이원 카이제곱 검정을 계산해 보자3

* 이원 카이제곱 검정 (Two-way) 

* 두 변수 모두 명목 변수일 때, 두 변수 사이에 어떠한 연관성이 있는지 확인해보는 것

* 카이제곱 감정은 인과관계가 아니고 상관관계 (연관성이 있다,)

* 기대 빈도 = (행합계 x 열합계) / 총합계


9-4. 카이제곱 검정을 넘어서

의료계에서 많이 쓰이는 편 

* 각 셀의 기대빈도가 5이상이어야 함

*...오...먼말인지 몰라지는....모르겠다 아무튼, 한계가 많은 검정임...안되겠다...

* 상대위험도는 두 확률의 차이가 아니라 비율로 나타냄 

* 오즈(odds)란 어떤 확율이 일어날 확율 / 일어나지 않을 확율 (행열을 바꿔서 계산해도 오즈비는 거의 비슷) 

* 두 명목 척도인 변수가 연관성이 있을 경우, 상관계수를 구하는 방법 > Contingency coefficient (분할계수/c계수), Phi and Cremer's V

  변수가 순위 척도 & 연관성이 있을 경우, 상관계수를 구하는 방법 > Kendall's tau-b, Gamma


9-5. 카이제곱 검정을 실습해보자

* Jamovi > frequency에 있음

* 결과가 유의하게 나와도 통계적으로 유의미한 설명하기 어려움


ㅠ-ㅠ 큰일났다! 이것도 아닌 것 같다...