정리 노트

비율을 비교하는 여러가지 방법 본문

개념 정리/통계

비율을 비교하는 여러가지 방법

꿈만 꾸는 학부생 2024. 1. 25. 22:04
728x90

이 포스트는 아래의 책의 내용을 정리하며 작성한 포스트입니다. 여기서 사용되는 예시 또한 책의 예시를 사용합니다.

 

통계 101×데이터 분석 | 아베 마사토 - 교보문고

통계 101×데이터 분석 |

product.kyobobook.co.kr


2024.01.11 - [개념 정리/통계] - 대푯값을 비교하는 여러가지 방법 포스트에서는 데이터가 양적 변수라는 가정이 있었습니다. 하지만 데이터는 양적 변수만 있는 것이 아닙니다. 동전 던지기를 생각하면 변수는 '앞면'과 '뒷면'만 있습니다. 이러한 변수는 범주형 변수입니다. 동전 던지기 같은 상황에서 모집단은 범주형 변수로 이루어져 있을 것입니다. 이때의 파라미터는 앞면(또는 뒷면)이 나올 확률입니다. 이 확률을 추정하거나 확률에 대한 가설을 세워 검정을 진행할 수 있습니다.

이항 검정(Binomial Test)

앞뒤가 동일한 확률로 나오는 동전인지 아닌지 알아보려 30번 던졌을 때 앞면이 21번, 뒷면이 9번 나왔다고 합시다. 이 숫자들만 보면 동전이 앞뒤가 동일한 확률로 나오지 않다고 생각할 수 있습니다. 하지만 2번 던져도 앞면, 앞면 또는 뒷면, 뒷면으로 나올 수도 있기 때문에 21번, 9번은 우연히 얻어걸린 데이터일 수도 있습니다.

이를 확실히 하기 위해 하나의 범주가 확률 p, 또 하나의 범주가 확률 (1 - p)로 나타나는지 조사하는 이항 검정 방법을 사용할 수 있습니다. 먼저 2가지의 가설을 아래와 같이 설정합니다.

  • 귀무가설: 앞면이 0.5, 뒷면이 0.5의 확률로 나온다.
  • 대립가설: 앞면이 0.5, 뒷면이 0.5의 확률로 나오지 않는다.

그다음, 양적 변수일 때와 동일하게 귀무가설이 옳다고 가정하고 21번, 9번 이상((22, 8), (23, 7), ..., (30, 0))으로 나올 확률(p값)을 계산합니다. 확률은 이항분포 식을 통해 계산할 수 있습니다.

$$ \Sigma_{n=21}^{30} \\ _{30}\mathrm{C}_{n} * 0.5^{n} * 0.5^{30 - n} = 0.043 $$

유의 수준(0.05)에서 통계적으로 유의미하게 한 쪽으로 치우쳤다고 판단할 수 있습니다.

카이제곱 검정(chi-squared test): 적합도 검정(goodness of fit test)

위의 이항 검정은 동전과 같이 범주가 2개일 때 적용할 수 있습니다. 만약 이항 검정의 방식을 주사위와 같이 범주가 3개 이상인 경우에도 적용하고 싶은 경우 카이제곱 검정의 일종인 적합도 검정을 이용할 수 있습니다. 이 검정 방식으로 특정 이산 확률 분포에서 얻은 데이터인지 아닌지 조사가 가능합니다. 카이제곱 검정의 적합도 검정에서는 일반적으로 다음과 같이 귀무가설과 대립 가설을 설정합니다.

  • 귀무가설: 모집단은 상정한 이산 확률 분포
  • 대립가설: 모집단은 상정한 이산 확률 분포가 아님

그럼 이 검정 방식을 이용해 주어진 정육면체 주사위가 정상 주사위인지 판단해 봅시다. 먼저 60번 주사위를 굴렸을 때 아래와 같은 결과를 얻었다고 합시다.

  1 2 3 4 5 6
출현 횟수 5 8 10 20 7 10
이론적 확률 1/6 1/6 1/6 1/6 1/6 1/6
기대 도수 10 10 10 10 10 10

적합도 검정을 하기 위해서 귀무가설의 확률 분포에서 얻을 수 있는 기대 도수를 계산해야 합니다. 기대 도수는 전체 개수에서 각 이론적 확률을 곱한 값입니다. 기대 도수를 구했으면 (출현 횟수 - 기대 도수)^2 / (기대 도수)를 계산해 더한 값을 구합니다. 구한 검정 통계량을 \(  \chi^2 \)(카이제곱) 값이라 부르고, 귀무가설이 옳다면 카이제곱 값은 카이제곱 분포를 따릅니다.

 

[확률과 통계] 49. 카이제곱 분포, Chi-Squared Distribution

카이제곱 분포는 감마 분포(gamma distribution)의 특수한 형태입니다. 우선 카이제곱 분포가 어떻게 생긴 ...

blog.naver.com

이 분포에서 계산한 카이제곱 값의 위치를 구해 p값을 도출할 수 있습니다. 위의 예시 데이터의 경우, p값은 0.017이 되므로 귀무가설을 기각하고 대립 가설을 채택할 수 있습니다. 즉, 통계적으로 보았을 때 이 주사위는 정상적인 주사위가 아니라고 판단할 수 있습니다.

카이제곱 검정: 독립성 검정(test of independence)

상수리나무와 굴밤 나무를 관찰해 사슴벌레의 개체 수를 암수별로 관찰해 아래와 같은 데이터를 얻었습니다.

관측 값 수컷 암컷
굴밤 나무 14 9
상수리 나무 6 17

나무의 종류에 따라 암수의 비율이 달라지는지 확인하는 문제가 주어졌을 때는 하나의 범주가 바뀌었을 때 다른 범주의 비율이 달라지는지 확인해야 합니다. 만약 비율이 달라지지 않는다면 두 범주는 서로 독립적이라 표현할 수 있습니다.

 

이러한 문제를 적합성 검정이나 이항 검정 방식을 사용하는 것은 적절하지 않을 수 있습니다. 이 두 검정 방식은 데이터의 확률 분포와 모집단의 확률 분포 사이를 비교하는 방식이기에 두 범주형 변수 사이의 독립성을 검정하는데 적절하지 않을 수 있습니다. 따라서 이러한 문제에서는 독립성 검정을 이용합니다. 가설은 아래와 같이 설정하고, 이 방식에서도 카이제곱 값과 카이제곱 분포를 사용합니다.

  • 귀무가설: 두 변수는 서로 독립
  • 대립가설: 두 변수는 서로 독립이 아님

그러면 기대 도수를 계산해야 하는데 기대 도수는 각 행과 열의 합을 계산하고, 열의 합을 행의 합의 비율을 기준으로 다시 배분해서 얻을 수 있습니다.

기대 도수 수컷 암컷
굴밤 나무 10 13
상수리 나무 10 13

(출현 횟수 - 기대 도수)^2 / (기대 도수) 식을 이용해 동일하게 계산하면 카이제곱 값은 4.33이 나오고 카이제곱 분포에서 p값을 계산하면 0.037이 되므로 대립 가설을 채택할 수 있습니다. 즉, 나무 종류에 따라 암수의 비율이 다르다고 결론을 내릴 수 있습니다.

728x90

'개념 정리 > 통계' 카테고리의 다른 글

대푯값을 비교하는 여러가지 방법  (1) 2024.01.11
진실과 판단의 4가지 패턴  (1) 2024.01.04
가설 검정 시행  (1) 2024.01.01
가설 검정의 원리  (1) 2023.10.27
표본 오차와 신뢰 구간  (1) 2023.10.19