죄송합니다. 아래수식을 html에 맞추다보니 깨지는 것 같습니다. 조만간 수정하겠습니다.
통계 검정에서 주로 많이 사용하는 것은 T검정, F검정 Z검정이 있습니다.
이 포스팅에서는 T검정에 대하여 설명해드리겠습니다.
1. 집단이 1개 , 모분산을 알고 있고, 평균을 구하고 싶은 경우
- 양측 검정이라면 | t0 | $$ \geq $$ t$\alpha/2$ 라면 H0를 기각한다.
- T ~ t (n-1)
- 예제문제 : 창던지기 선수의 10회 기록을 조사한 데이터는 다음과 같다.[ 64 , 64.8 , 66, 63.5, 65, 68, 67 , 63.6, 67.6, 68.9]창던지기 거리의 평균이 65m가 넘는다는 주장을 유의수준 5%에서 검정 ( 창던지기 거리는 정규분포를 따른다고 가정한다. )
- H0 : $$\mu = 65$$ H1 : $$\mu \neq 65$$
- 평균 : 65.84 , 표본표준편차 : 1.948
- T0 = $$ \frac{\bar{X} - \mu}{S/\sqrt{n}} $$ = $$ \frac{65.84-65}{1.948/ \sqrt{10}} $$ = 1.364
- T0.025 ( 9 ) = 2.262
- 따라서 T0 < T0.025 ( 9 ) 으므로 귀무가설을 기각하지 못하여, 평균 창던지기 거리가 65m와 다르다고 할 증거가 없다.
- Pvalue = 0.205 ( 유의수준 0.05보다 크므로 귀무가설을 기각할 수 없다. )
- 파이썬에서 pval = stats.t.sf(np.abs( t값 ), n-1)*2 이용.
2. 집단이 2개, 모집단을 모를 경우, 추가가정( 집단간의 분산이 서로 같다, 집단간은 서로 독립적이다. )
- Sp2 = ( ( n1 -1) * Sp2+ ( n2 -1) * Sp2 ) / ( n1 + n2 -2)
- V ( 자유도 ) = n1 + n2 -2
- T = (($$ \bar{X} $$1 - $$ \bar{X} $$2 ) - ( $$\mu$$1 - $$\mu$$2) ) / ( Sp * $$\sqrt{(1/n1)+(1+n2)}$$) )
==> ( 계산을 할 경우에는 분자가 ($$ \bar{X} $$1 - $$ \bar{X} $$2 ) )
3. 집단이 2개, 모집단을 모를 경우, 추가가정( 집단간의 분산이 서로 다르다, 집단간은 서로 독립적이다. )
- T = ($$ \bar{X} $$1 - $$ \bar{X} $$2 ) - ( $$\mu$$1 - $$\mu$$2) / ( $$\sqrt{(S_{1}^{2}/n_{1})+(S_{2}^{2}/n_{2})}$$) )
- V( 자유도 ) = $$ \frac{((S_{1}^{2}/n_{1})+(S_{2}^{2}/n_{2}))^{2}}{ \frac{(S_{1}^{2}/n_{1})^{2}}{n_{1}-1} + \frac{(S_{2}^{2}/n_{2})^{2}}{n_{2}-1}} $$
4. 두 집단이 서로 독립이라는 것을 가정할 수 없을 경우 ( 쌍체 T검정 - 대응표본T검정 )
- T = $$\frac{\bar{D}- \mu_{D}}{S_{D}/\sqrt{n}}$$
- t0 = $$\frac{\bar{d}-0}{s_{d}/\sqrt{n}}$$
- V (자유도 )= n-1
- 예제집단1 (음식조절전)= [82.1,78.1,86.2, 84.8,95.2, 91.6, 75.3, 78.5, 83.0,83.5]집단2(음식조절후) = [80.7,78.1,83.9,83.5,91.2,91.2,72.6,76.2,81.6,81.2]
- $$H_{0} : \mu_{1} = \mu_{2}$$ , $$H_{0} : \mu_{1} > \mu_{2}$$
- 다음 변경되는 D의 가설은 $$H_{0} : \mu_{D} = 0 $$ , $$H_{0} : \mu_{D} > 0$$
- n=10
- 집단 1평균 = 83.83
- 집단 2 평균 = 82.02
- $$\bar{d}$$ = 83.83-82.02 = 1.81
- $$t_{0}$$ = $$\frac{\bar{d}}{s_{d}/\sqrt{n}}$$ = 4.934
- $$ t_{0} \geq t_{0.05}(9) =1.833$$ 이므로 귀무가설을 기각한다. 즉 음식조절 후에 평균 몸무게가 음식조절전에 줄었다는 증거가 있다. 음식조절법이 효과가 있음을 뒷받침한다.
참고 자료
https://stackoverflow.com/questions/17559897/python-p-value-from-t-statisticBook - 통계학개론 - 강기훈
'Machine Learning' 카테고리의 다른 글
통계의 기초 - 가설검정 개념 (0) | 2019.10.09 |
---|---|
통계 검정방법 - Z검정 (0) | 2019.10.09 |
통계의 그룹별 분석의 기초 - Anova ( 분산 분석 ) (0) | 2019.10.09 |
예측력이 좋은 XGBoost Regression 개념 및 python 예제 (0) | 2019.10.09 |
서포트 벡터 머신 SVM ( Support Vector Machine)의 개념 및 python예제 (0) | 2019.10.09 |