진실과 판단의 4가지 패턴

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

정리 노트

진실과 판단의 4가지 패턴 본문

개념 정리/통계

진실과 판단의 4가지 패턴

꿈만 꾸는 학부생 2024. 1. 4. 15:57

728x90

이 포스트는 아래의 책의 내용을 정리하며 작성한 포스트입니다. 여기서 사용되는 예시 또한 책의 예시를 사용합니다.

통계 101×데이터 분석 | 아베 마사토 - 교보문고

통계 101×데이터 분석 |

product.kyobobook.co.kr

귀무가설과 대립가설은 서로 부정 관계에 있기 때문에 한 쪽이 옳다면 다른 쪽은 틀린 것이 됩니다. 따라서 진실은 귀무가설이 옳은 경우와 대립가설이 옳은 경우 2가지 패턴으로 나뉩니다. 그리고 p값을 계산해 유의 수준 $α$ 와 비교해 대립가설을 지지할지 않을지 판단합니다. 여기서 귀무가설을 기각하는 것과 할수 없는 것 2가지 패턴으로 나뉩니다. 이를 합친 진실과 판단은 2 x 2 패턴입니다.

	귀무가설이 옳음	대립가설이 옳음
귀무가설을 기각하지 않음	OK	제2종 오류(확률 $β$ )
귀무가설을 기각, 대립가설 채택	제1종 오류(확률 $α$ )	OK

왼쪽 아래 칸: 귀무가설이 옳음에도 기각 -> 제1종 오류(false positive)
오른쪽 위 칸: 대립가설이 옳음에도 귀무가설을 기각하지 않음 -> 제2종 오류(false negative)

제1종 오류(false positive, 위양성)

평균을 비교하는 것을 예시로 설명하면 제1종 오류는 실제로 두 집단 간의 평균 차이가 없음에도 차이가 있다고 잘 못 판단하는 것을 말합니다. 하지만 실제 모집단(진실)은 알 방법이 없기 때문에 해석한 것이 제1종 오류를 범했는지 아닌지 알 수 없습니다. 대신 p값, 유의 수준( $α$ )를 이용해 오류가 일어날 확률을 통제할 수 있습니다.

만약 확보한 데이터가 정말 귀무가설에서 얻은 것이라면 p값 < $a l p h a$ 이므로 유의 수준을 기준으로 하면 귀무가설이 옳지만 기각하는 오류가 $α$ 만큼의 확률로 일어납니다. 즉, 유의 수준을 미리 정해서 제1종 오류가 일어날 확률을 통제할 수 있습니다. 과학 논문 등을 보면 $α$ = 0.05 라는 표현을 자주 쓰는데, 이는 귀무가설이 옳을 때 0.05의 확률로 귀무가설을 기각하고 대립가설을 채택하는 위험을 허용한다는 의미입니다.

제2종 오류(false positive, 위음성)

여기서도 평균 비교를 예시로 하면 제2종 오류는 실제로 두 집단 간의 평균 차이가 있지만 차이가 있다고 말할 수 없어 귀무가설을 기각하지 않는 판단을 말합니다. 이러할 확률을 주로 $β$ 로 표시하고 1 - $β$ 를 올바르게 판단할 확률, 검정력이라 합니다. 검정력은 일반적으로 80%로 설정하지만 $β$ 은 표본 크기와 반비례 관계를 가지기 때문에 유의 수준처럼 직접 설정할 수 없습니다.

오류를 범하지 않기 위해 제1종 오류가 일어날 확률과 제2종 오류가 일어날 확률 모두 0에 가깝게 만들어야 합니다. 하지만 두 확률 사이에는 상충 관계가 있기 때문에 하나의 확률이 감소하면 다른 하나의 확률이 상승합니다.

효과 크기(effect size)

제1종 오류가 일어날 확률과 제2종 오류가 일어날 확률과 같이 중요한 수치가 또 있습니다. 바로 일반적으로 얼마나 큰 효과가 있는지를 나타내는 지표인 효과 크기입니다. 여기서도 평균 비교로 예시를 들면 두 집단의 평균 값 차이만 보는 것이 아니라 모집단의 표준 편차에 대해 상대적으로 평가하는 값( $\frac{μ_{A} - μ_{B}}{σ}$ )을 사용합니다. 두 평균 값의 차이에 비해 표준 편차가 커질수록 두 집단의 분포에서 겹치는 부분이 많아지기 때문에 평균의 차이를 검출하기 어려워지고, 표준 편차가 작아질수록 겹치는 부분이 작아져서 평균의 차이를 검출하기 쉬워집니다.

지금까지 살펴본 세 가지의 값과 표본 크기 중에서 세 가지의 값을 결정하면 나머지 하나의 값이 자동으로 정해지는 성질이 있습니다.

728x90

저작자표시 비영리 (새창열림)

'개념 정리 > 통계' 카테고리의 다른 글

비율의 비교(이항과 카이제곱) (2)	2024.01.25
대푯값의 비교(t 검정, 분산 분석) (1)	2024.01.11
가설 검정의 계산 (1)	2024.01.01
가설 검정의 원리 (1)	2023.10.27
표본 오차와 신뢰 구간 (1)	2023.10.19

'개념 정리/통계' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

정리 노트

정리 노트

진실과 판단의 4가지 패턴 본문

진실과 판단의 4가지 패턴

제1종 오류(false positive, 위양성)

제2종 오류(false positive, 위음성)

효과 크기(effect size)

'개념 정리 > 통계' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역