본문 바로가기

Machine Learning

(18)
anova 분석 후에 주로 사용하는 - 사후검정 개념 설명 주로 anova 분석을 한 후에 사후분석을 진행하는 경우가 많습니다. 아래는 사후분석 방법을 정리하였습니다. 종류는 아래보다 더많을 수 있고, 제가 조사하고 아는선에서만 정리하였습니다. 1. 사후분석 - 사용 목적 ANOVA 분석 결과가 통계적으로 유의하다는 결과를 얻었을 경우 그것은 집단별로 차이가 있다는것까지는 도출가능하지만, 어떤 집단간에 차이가 있는지는 알려주지 않습니다. N개의의 집단 중 어떤집단들간에 값이 차이가 있는지를 추가적으로 살펴보기 위해서 실시하는것이 사후 분석입니다 t테스트를 여러번해서 할 수도 있지만, 비교대상이 증가할 수록 신뢰수준이 낮아지는 문제이다. 예를들면 하나의 집단에 대해서 차이가 있는지를 볼때에는 신뢰수준이 95%이지만, 신뢰수준이 95%인 두개의 집단의 결과가 동일할..
통계의 기초 - 가설검정 개념 죄송합니다. 아래수식을 html에 맞추다보니 깨지는 것 같습니다. 조만간 수정하겠습니다. 1. 가설 검정 추정과 함께 추측통계학의 2가지 방법 중 하나이다. 가설검정은 모집단의 값/분포에 두개의 가설을 세우고, 이것의 참/거짓을 표본정보로 부터 판단 추정과 마찬가지로 가설검정도 100%가 아니라, 일정한 확률로 예측한다. (추정은 모집단의 값/분포에 대해서 확률적으로 추론) 가설 종류 귀무가설(H0) : 기존에 지지를 받았던 가설 대립가설(H1) : 귀무가설과 대립되는 가설 가설설정-> 유의수준설정 -> 검정통계량 산출 -> 기각/채택 판단 양측검정 단측검정 ( 좌측 -대립가설이 x보다 작은경우 or 우측-대립가설이 x보다 큰경우 ) 신뢰수준 가설을 검정할 경우 얼마나 세밀하게 검정할 것인지 결정하는 수..
통계 검정방법 - Z검정 죄송합니다. 아래수식을 html에 맞추다보니 깨지는 것 같습니다. 조만간 수정하겠습니다. 통계 검정에서 주로 많이 사용하는 것은 T검정, F검정 Z검정이 있습니다. ## 이 포스팅에서는 Z검정에 대하여 설명해드리겠습니다. 1. 가정 집단이 1개이고, 검정대상이 평균일 때 사용 모분산 및 모표준편차를 알고 있을 경우에 사용한다 2. 예제문제 : 어느 회사에서 생상되는 과자의 한봉지당 함량은 125g으로 표기되어 있다. 임의로 64봉지를 뽑아서 평균을 구한 결과 121.7g 이다. 과거에 자료에 의하면 봉지당 함량의 표준편차는 12g이라한다.유의수준 5%에서 평균이 125g이라고 할 수 있는지 검정하고, 봉지당 평균 함량의 95%신뢰구간을 구해서 가설검정을 시행하라 H0 : $$\mu = 125$$ H1 :..
통계 검정방법 - T검정 개념설명 죄송합니다. 아래수식을 html에 맞추다보니 깨지는 것 같습니다. 조만간 수정하겠습니다. 통계 검정에서 주로 많이 사용하는 것은 T검정, F검정 Z검정이 있습니다. 이 포스팅에서는 T검정에 대하여 설명해드리겠습니다. 1. 집단이 1개 , 모분산을 알고 있고, 평균을 구하고 싶은 경우 양측 검정이라면 | t0 | $$ \geq $$ t$\alpha/2$ 라면 H0를 기각한다. T ~ t (n-1) 예제문제 : 창던지기 선수의 10회 기록을 조사한 데이터는 다음과 같다.[ 64 , 64.8 , 66, 63.5, 65, 68, 67 , 63.6, 67.6, 68.9]창던지기 거리의 평균이 65m가 넘는다는 주장을 유의수준 5%에서 검정 ( 창던지기 거리는 정규분포를 따른다고 가정한다. ) H0 : $$\mu ..
통계의 그룹별 분석의 기초 - Anova ( 분산 분석 ) 통계 및 분석에서 가장 기초가 되는 Anova 분석입니다. (일원분산분석 뿐만아니라 다중분산분석이 있지만 다루지않았습니다. 추후에 추가하겠습니다.) 1. 일원분산분석 1) 정의 표본의 분산에 대한 차이를 검정하는 방법은 카이제곱 검정과 F Test(F 검정)으로 구분된다. 카이제곱 검정은 단일표본의 모집단이 정규분포를 따르며 분산을 미리 알고 있는 경우에 적용된다. 그러나 통계 과정에서 이를 알고 있는 경우는 드물기 때문에 모집단을 알고 있지 않은 경우의 F Test를 중심으로 분석한다. F Test는 두 표본의 분산에 대한 차이가 통계적으로 유의한가를 판별하는 검정기법이다. 분산의 유의차 분석이기 때문에 var test로도 불린다. R2 = SSR / SSE ( 1에 가까울 수록 종속변수가 설명되는 양..
예측력이 좋은 XGBoost Regression 개념 및 python 예제 XGBoost Regression 방법의 모델은 예측력이 좋아서 주로 많이 사용된다. 1. 정의 약한 분류기를 세트로 묶어서 정확도를 예측하는 기법이다. 욕심쟁이(Greedy Algorithm)을 사용하여 분류기를 발견하고 분산처리를 사용하여 빠른 속도로 적합한 비중 파라미터를 찾는 알고리즘이다. boostin 알고리즘이 기본원리 2. 장점 병렬 처리를 사용하기에 학습과 분류가 빠르다 유연성이 좋다. 커스텀 최적화 옵션을 제공한다 욕심쟁이(Greedy-algorithm)을 사용한 자동 가지치기가 가능하다. 과적합이 잘일어나지 않는다. 다른 알고리즘과 연계하여 앙상블 학습이 가능하다. 3. 수식 예 Y = w1 * M(x)+ w2 * G(x)+ w3 * H(x) + error ==> 세개의 모델이 함게 적..
서포트 벡터 머신 SVM ( Support Vector Machine)의 개념 및 python예제 서포트 백터 머신 SVM ( Support Vector Machine) 지도학습을 위한 가장 기본적인 방법 1. 정의 분리된 초평면에 의해 정의된 분류 모델이다. 최적의 초평면을 찾는 것 가장 최적의 의사 결정 경계는 모든 클래스의 가장 가까운 점으로부터 최대 마진을 갖는 결정 경계입니다. 결정 경계와 점 사이의 거리를 최대화하는 결정 경계로부터의 가장 가까운 점을 그림 2에서 보듯이 Support Vector 라고 부른다. Support Vector 의 결정 경계는 최대 마진 분류기 또는 최대 마진 하이퍼 평면이라고 불린다. python에서 svm kernel의 종류 ==> linear, poly(다항), rbf(가우시안), sigmoid(시그모이드) 2. Python Example from sklea..
정규화 선형회귀( Regularization Regression ) - ridge, lasso, elasticnet 개념과 python 예제 정규화 선형회귀 ( Regularization Regression ) - ridge, lasso, elasticnet 1. Ridge Regression 1) 정의 Ridge 회귀모형에서는 가중치들의 제곱합(squared sum of weights)을 최소화하는 것을 추가적인 제약 조건으로 한다. λ는 기존의 잔차 제곱합과 추가적 제약 조건의 비중을 조절하기 위한 하이퍼 모수(hyper parameter)이다. λ가 크면 정규화 정도가 커지고 가중치의 값들이 작아진다. λ가 작아지면 정규화 정도가 작아지며 λ 가 0이 되면 일반적인 선형 회귀모형이 된다. 2) python Example from sklearn.datasets import load_boston from sklearn.linear_model..