위의 그림을 가지고 설명을 하자면 μ값이 같거나 다르면 양쪽 꼬리 검정이고 부등호가 있을때는 한쪽 꼬리 검정으로 많이 사용을합니다.
제 1종오류 α값을 p값이라고 표현이라고도 하는데요
P값이란 귀무가설이 참이라는 가정하에 관측된 값보다 표본의 값이 더 극한 값을 가질 확률입니다.
즉 α영역보다 더 극한 값을 가지게 되는 경우라고 볼수가 있습니다.
가설검정의 결과를 요약할때에 통계적으로 유의하였다. 유의하지 않았다라고 말하는데요
그러면 우리가 통계적 유의성이라는 말이 무슨 말일까요?
이런 통계적 유의성이 있다는 말은 예로들어서 고등학생 100명의 표본을 뽑아서 키의 평균을 잰 결과 180cm가 나왔다고 합니다 이는 전국 평균 고등학생의 키 175cm에 비한 결과를 유의한 차이가 있다고 말합니다. 결국 통계적 유의성은 가설검정의 최종 결과를 표현한 말입니다.
또 신뢰구간의 개념을 통해서 통계적 추론도 하였는데요 ㅎ 요기서 신뢰구간은 모집단의 모수 값이 가질수 있는 값의 범위입니다.
이번시간에는 가설에대해서 정리를 할껀데요
모수 값이 가질 수 있는 값의 범위를 정하는것이 아니라 모집단 모수 값에 대한 타당성을 검증할수 있도록하는 것입니다.
예로들면 규칙적으로 복권을 하는 사람들의 85%는 한번도 복권에서 100달러 이상을 번 적이 없다라는 타당성을 검증하도록 도와주는겁니다.
자 그러면 가설이란 무엇일까요?
가설이란 모집단에 대한 진술이라고 합니다. 즉 데이터 진술의 합리성을 검정하기 위해서 사용됩니다.
(의사들이 가설로 이사람은 어딘가 아플것이다 하고 여러 증상과 진단 검사를 하는것이라고 하면 이해가 될꺼같네요)
이러한 가설이 통계적 분석에서 가설을 세우가 데이터를 수집하고 그 수집한 데이터 를 이용해서 가설을 검정하는 역할을 합니다.
그러면 가설을 검정한다는 말이 가설검정이라고하는데요
가설검정은!! 모집단 모수에 대한 진술의 타당성을 검증하기 위한 것입니다.
만약 전자 상가의 표본의 월급평균은 190만원이라고 했을때 전체 직원의 평균은 200만원이면 이 가설이 채택될까?? 이러한 문제를 결정하는 것임돠
이문제를 결정하기 위해서 가설검정은 5가지 단계가 있습니다.
귀무가설과 대립가설을 수립
유의수준 결정
검정 통계량의 선택
결정 규칙의 생성
결론을 내림
H0를 기각하지 않음 또는 H0를 기각함 그리고 H1을 채택
잘 모르겠죠? (저도..잘 모르겠습니다.ㅎ)
1.귀무가설과 대립가설을 수립
자 처음 단계는 귀무가설()과 대립가설()을 설정해줘야됩니다.
이 말은 검정될 가설을 설정하는 거라고 보시면 되곘습니다.
귀무가설이란 의 수식을 가지고 있습니다. 이때 H는 hypothesis를 이미하고 문자'0'은 차이가 없음을 의미합니다. 즉 변화가 없다는 것을 의미하는것이죠 (참이라는 겁니다) 을 기각 한다는 의미는 변화가 있다는 것을 의미하겠죠 ㅎ ( μ = n% 옆의 식과 같이 참을 의미합니다)
대립가설이란 귀무 가설이 기각 되었을때 어떤 결론을 내릴것인가에 대해서 기술을 합니다. 즉 표본 데이터가 귀무가설이 거짓이라는 통계적으로 충분한 증거를 제시할때 사용합니다. 대립가설은 귀무가설이 거짓이라고 결론 내릴때만 사용합니다. (μ ≠ n% 거짓을 의미합니다)
귀무가설과 대립가설에 대해서 설명을 하였는데요
그 후에는 검정의 유의수준을 결정을 하여야합니다. 왜 유의수준을 결정을 할까요?
귀무가설의 예로 들어봅시다 만약 어떤 전체 기기의 강도가 60 psi가 됬다고 가설을 설정했습니다. 그래서 10개의 표본을 뽑아서 강도의 평균을 구했더니 59.5 psi가 되었습니다. 이떄!!!! 0.5가 중요한 차이를 의미할까요? 아니면 우연의 결과 일까요? 이러한 질문을 해결하기 위해서 유의 수준 검정을 합니다.
2.유의수준 결정
결국에는 유의수준이란 귀무가설이 사실였는데도 귀무가설을 기각하게 되는 확률입니다. 유의수준은(α)로 나타냅니다.
유의수준은 5%수준에서결정을 하거나 0과1사이의 어느 수준에서 결정을 내릴수가 있습니다. 아주 작은 차이를 결정하는 경우라고 볼수가 있죠
그치만 표본을 뽑아서 귀무가설이 참인지 거짓인지 정했지만 모집단 즉 전체에서는 표본의 값이 맞지가 않을수고 있습니다.
이러한 오류를 1종오류, 2종 오류라고 하는데요
1종오류는 귀무가설이 참일 때 귀무가설을 기가하는 경우
이 경우는 예로들어서 어떠한 표본 중 PCB의 5% 이상이 이상하면 생산이 취소되다고 합니다. 그런데 표본을 추출해서 구했더니 5%이상이 나왔습니다 그렇게 되면 귀무가설이 기각되었습니다. 하지만!!! 전체에서는 5%가 이하가 나왔습니다. 그렇게 되는 경우를 1종 오류라고 합니다.
2종오류는 귀무가설이 거짓일 때 귀무가설을 기각하지 못하는 경우입니다. 베타라고 합니다 (β)
이것의 예도 1종오류의 반대입니다. 어떠한 표본 중 12%이상이 불량률이면 생산이 중단된다고 합시다. 처음 표본을 뽑았을때에 12%이하여서 계속해서 생산이 되었지만 전체적으로는 12%이상이였습니다. 이러는 경우가 2종 오류인겁니다.
밑은 표로 1종오류와 2종오류를 표로 나타내었습니다.
기각불가
기각
참 (귀무가설)
올바른 결정 (1-알파)
1종 오류 (알파)
거짓 (대립가설)
2종 오류 (베타)
올바른 결정 (1-베타)
가설검정에서의 판정오류 α,β -출처 보건통계학의 이해
3.검정 통계량의 선택
이런 결과를 가지고 귀무가설을 기각할 것인지를 결정하기 위해서 표본에서 추출된 값이 필요한데요 이것을 검정 통게량이라고 합니다.
검정통계에는 z와 t를 검정통계로 사용됩니다. -> 나중에는 카이제곱검정 에대해서 정리를 하겠습니다.
모집단이 σ를 알고 있을때 평균(μ)의 검정은 입니다.
모집단이 σ를 모르고 있을때에는 입니다.
4.결정 규칙의 생성
옆의 있는 그림을 통해서
귀무가설이 기각되지 않는 영역은 1.65를 기준으로 왼쪽 부분
기각 영역은 1.65를 기준으로 오른쪽 부분
1.65의 임계값을 가진다.
통게량 z의 분포는 표준정규분포를 따른다.
이렇 결정들을 알수가 있다.
5.결론을 내림
마지막 단게는 검정 통계량을 계산하여 그것을 임계값과 비교하여 귀무가설을 기각할 것인지 기각하지 않을것인지에 대한 결론을 내린다.
한쪽꼬리검정과 양쪽꼬리검정
위의 표준정규분포 그림에서 보면 안쪽으로 기각 영역으로 향하고 있다 이런 분포를 한쪽꼬리검정이라고 한다.