정리 노트

가설 검정 시행 본문

개념 정리/통계

가설 검정 시행

꿈만 꾸는 학부생 2024. 1. 1. 15:06
728x90

이 포스트는 아래의 책의 내용을 정리하며 작성한 포스트입니다. 여기서 사용되는 예시 또한 책의 예시를 사용합니다.

 

통계 101×데이터 분석 | 아베 마사토 - 교보문고

통계 101×데이터 분석 |

product.kyobobook.co.kr


이 포스트는 아래의 포스트의 내용에서 이어집니다.

 

가설 검정의 원리

이 포스트는 아래의 책의 내용을 정리하며 작성한 포스트입니다. 여기서 사용되는 예시 또한 책의 예시를 사용합니다. 통계 101×데이터 분석 | 아베 마사토 - 교보문고 통계 101×데이터 분석 | prod

study-note-99.tistory.com

가설 검정의 구체적인 계산

요즘은 p-value를 직접 계산하지 않고 R 등의 통계 분석 소프트웨어에서 계산해 줍니다. 그래도 여기서는 개념을 더 이해하기 위해 2개의 집단 간의 평균값을 비교하는 검정(이표본 t검정)을 바탕으로 p-value 계산 방법을 알아봅시다.

 

두 집단의 표본 평균의 차이와 모집단 평균의 차이 사이의 차이는 중심 극한 정리에 의해 정규 분포를 근사적으로 따릅니다. 귀무가설이 옳다고 가정했다면, 모집단 평균의 차이는 0이므로 이를 대입하면 귀무가설이 옳은 세계의 표본 평균 차이의 근사적 분포를 얻을 수 있습니다.

근사적이라는 표현을 계속해서 사용하는 이유는 표본의 크기가 작고, 표본에서 추정한 값을 모집단의 표준 편차로 사용하면 정규 분포와 다소 어긋나기 때문입니다. 따라서 표본 평균의 차이를 표준화한 값인 t값을 기준으로 t분포를 적용합니다.

$$ t = {\bar{x}_A - \bar{x}_B \over s\sqrt{{1 \over n_A} + {1 \over n_B}}} $$

$$ s = \sqrt{{(n_A - 1)s_A^2 + (n_B - 1)s_B^2 \over n_A + n_B - 2}} $$

위 식에서 \(n_A, n_B\)는 A, B 집단의 크기, \(s_A, s_B\)는 A, B 집단의 비편향 표준 편차입니다. 두 집단의 비편향 표준 편차를 고려해 계산한 비편향 표준 편차(s)가 위의 식을 통해 계산이 되고, 이를 이용해 두 집단의 표본 평균의 차이를 t값으로 정규화할 수 있습니다.

출처: https://wikidocs.net/34009

위의 그래프에서 붉은 선으로 그려진 그래프가 t분포 그래프입니다. 양 끝으로 갈수록 드물게 일어나는 현상임을 의미합니다. 이를 수치적으로 다루기 위해 양 끝의 2.5%씩의 발생 범위를 고려해 총 5%의 범위를 잡습니다. 이 양 끝의 2.5%의 영역을 유의 수준 5%인 기각역이라 합니다(붉게 칠한 영역). 실제로 계산해서 얻은 t값이 위치한 곳을 확인해 이 이상의 극단적인 값이 나올 확률을 계산한 것이 p값입니다. 예를 들어 t값이 -2.3이 나왔다면 t가 -2.3 이하일 확률과 2.3 이상일 확률을 각각 구해 더합니다. 이렇게 양쪽을 고려한 검정 방법을 양측 검정, 한쪽만 고려하는 방법은 단측 검정이라 합니다. 보통은 양측 검정 방식을 사용한다고 합니다.

728x90

'개념 정리 > 통계' 카테고리의 다른 글

비율을 비교하는 여러가지 방법  (2) 2024.01.25
대푯값을 비교하는 여러가지 방법  (1) 2024.01.11
진실과 판단의 4가지 패턴  (1) 2024.01.04
가설 검정의 원리  (1) 2023.10.27
표본 오차와 신뢰 구간  (1) 2023.10.19