Machine Learning

통계의 기초 - 가설검정 개념

흰곰곰 2019. 10. 9. 21:32

죄송합니다. 아래수식을 html에 맞추다보니 깨지는 것 같습니다. 조만간 수정하겠습니다.



1. 가설 검정

  • 추정과 함께 추측통계학의 2가지 방법 중 하나이다.
  • 가설검정은 모집단의 값/분포에 두개의 가설을 세우고, 이것의 참/거짓을 표본정보로 부터 판단
  • 추정과 마찬가지로 가설검정도 100%가 아니라, 일정한 확률로 예측한다. (추정은 모집단의 값/분포에 대해서 확률적으로 추론)
  • 가설 종류
    • 귀무가설(H0) : 기존에 지지를 받았던 가설
    • 대립가설(H1) : 귀무가설과 대립되는 가설
  • 가설설정-> 유의수준설정 -> 검정통계량 산출 -> 기각/채택 판단
  • 양측검정
  • 단측검정 ( 좌측 -대립가설이 x보다 작은경우 or 우측-대립가설이 x보다 큰경우 )
  • 신뢰수준
    • 가설을 검정할 경우 얼마나 세밀하게 검정할 것인지 결정하는 수준
    • 보통적으로는 연구:99% , 일반적으로:95%, 설문조사:90% 사용한다.
  • 기각역
    • 양측인 경우는 유의수준/2
    • 단측인경우는 유의수준과 같다.
  • 임계치 : 신뢰구간에서 기각역으로 넘어가는 기준이 되는 x값을 말한다. (기각치-critical value 라고도 불린다)
    가설검정_image_1

  • 검정통계량 : $$ \frac{ 표본평균 - 모평균} {표본표준편차} $$
  • 유의확률 ( p- value )
    • 귀무가설이 신뢰구간을 벗어나는 확률 ( 기각역보다 유의확률이 작아야 귀무가설 기각)
    • “p<0.05”가 무엇이 참이라는 보증이 될 수는 없습니다. 궁극적으로 p-value는 단지 통계 자료일 뿐이며 절대적 징표가 아닙니다. 특히 표본 크기와 같은 연구의 다양한 측면이 p-value에 영향을 줄 수 있습니다.
    • 따라서 p-value만을 기초로 실질적인 의사결정을 내려서는 안 된다는 것은 상식 ( 제1종오류를 범할 가능성이 크다.)
    • 또한 단측검정에서는 두집단의 차이가 있다 없다는 식으로 결론을 내리게 된다. ( 부등호 사라짐 )
  • 자유도 : x값이 가질수 있는 값의 범위 ( 주어지지 않는다면 => 표본수(n)-1 )
  • 가설검정의 오류 가능성
    가설검정_image_2
    • 제 1종 오류 ($$ \alpha - 오류 $$) : 귀무가설이 참인데, 기각하는 오류 ( type1 Error)
    • 제 1종 오류 ($$ \beta - 오류 $$) : 대립가설이 참인데, 귀무가설을 기각하지 않는 오류 ( type 2 Error)

  • 가설검정을 크게 나눌 경우
    • 평균에 대한 가설검정
    • 분산에 대한 가설검정 ( 모집단을 구성하는 값들이 평균과 어느정도 퍼져있는지 보고자 할 때 )
  • 가설 검정 종류
    표본의 개수 검정 대상 모분산 파악여부 분석 구문
    1개 평균 알고 있음 한 표본에서 평균에 대한 Z 검정
    모르고 있음 한 표본에서 평균에 대한 T검정
    분산 관계없음 한 표본에서 분산에 대한 모분산검정 ( 카이제곱검정)
    2개 평균 관계없음( 독립된 표본) 두 표본에서 평균에 대한 T검정
    관계없음( 쌍체 표본) 두 표본에서 평균에 대한 쌍체-T검정
    분산 관계없음 두 표본에서 분산에 대한 모분산검정 ( F검정 )
    2개이상 평균 관계없음 분산분석 ( Anova )


참고 자료

https://medium.com/@youngji/%EA%B0%80%EC%84%A4%EA%B2%80%EC%A0%95-hypothesis-test-cf95dfe2cb58https://kkokkilkon.tistory.com/36https://www.editage.co.kr/insights/is-my-research-significant-why-you-shouldn%E2%80%99t-rely-on-p-valueshttp://contents.kocw.or.kr/KOCW/document/2015/dongguk/shimkyubark1/6-2.pdf