본문 바로가기

전체 글

(38)
리스트안에서 서로 대응 튜플 만들기 ( 중복 없이) import itertools as itprint(list (range(groups.size)) )'''[0,1,2,3,4]'''combs = it.combinations(range(groups.size), 2)list(combs)'''[(0,1), (0,2), (0,3), (0,4), (1,2), (1,3), (1,4), (2,3), (2,4), (3,4)'''
Collections 패키지 사용법 List​x# collections.Counter 예제 (1)# list를 입력값으로 함import collectionslst = ['aa', 'cc', 'dd', 'aa', 'bb', 'ee']print(collections.Counter(lst))'''결과Counter({'aa': 2, 'cc': 1, 'dd': 1, 'bb': 1, 'ee': 1})'''​​ Dictionary - 요소의 갯수가 많은 것 부터 출력해준다.xxxxxxxxxx# collections.Counter 예제 (2)# dictionary를 입력값으로 함import collectionsprint(collections.Counter({'가': 3, '나': 2, '다': 4}))'''결과Counter({'다': 4, '가': 3,..
anova 분석 후에 주로 사용하는 - 사후검정 개념 설명 주로 anova 분석을 한 후에 사후분석을 진행하는 경우가 많습니다. 아래는 사후분석 방법을 정리하였습니다. 종류는 아래보다 더많을 수 있고, 제가 조사하고 아는선에서만 정리하였습니다. 1. 사후분석 - 사용 목적 ANOVA 분석 결과가 통계적으로 유의하다는 결과를 얻었을 경우 그것은 집단별로 차이가 있다는것까지는 도출가능하지만, 어떤 집단간에 차이가 있는지는 알려주지 않습니다. N개의의 집단 중 어떤집단들간에 값이 차이가 있는지를 추가적으로 살펴보기 위해서 실시하는것이 사후 분석입니다 t테스트를 여러번해서 할 수도 있지만, 비교대상이 증가할 수록 신뢰수준이 낮아지는 문제이다. 예를들면 하나의 집단에 대해서 차이가 있는지를 볼때에는 신뢰수준이 95%이지만, 신뢰수준이 95%인 두개의 집단의 결과가 동일할..
통계의 기초 - 가설검정 개념 죄송합니다. 아래수식을 html에 맞추다보니 깨지는 것 같습니다. 조만간 수정하겠습니다. 1. 가설 검정 추정과 함께 추측통계학의 2가지 방법 중 하나이다. 가설검정은 모집단의 값/분포에 두개의 가설을 세우고, 이것의 참/거짓을 표본정보로 부터 판단 추정과 마찬가지로 가설검정도 100%가 아니라, 일정한 확률로 예측한다. (추정은 모집단의 값/분포에 대해서 확률적으로 추론) 가설 종류 귀무가설(H0) : 기존에 지지를 받았던 가설 대립가설(H1) : 귀무가설과 대립되는 가설 가설설정-> 유의수준설정 -> 검정통계량 산출 -> 기각/채택 판단 양측검정 단측검정 ( 좌측 -대립가설이 x보다 작은경우 or 우측-대립가설이 x보다 큰경우 ) 신뢰수준 가설을 검정할 경우 얼마나 세밀하게 검정할 것인지 결정하는 수..
통계 검정방법 - Z검정 죄송합니다. 아래수식을 html에 맞추다보니 깨지는 것 같습니다. 조만간 수정하겠습니다. 통계 검정에서 주로 많이 사용하는 것은 T검정, F검정 Z검정이 있습니다. ## 이 포스팅에서는 Z검정에 대하여 설명해드리겠습니다. 1. 가정 집단이 1개이고, 검정대상이 평균일 때 사용 모분산 및 모표준편차를 알고 있을 경우에 사용한다 2. 예제문제 : 어느 회사에서 생상되는 과자의 한봉지당 함량은 125g으로 표기되어 있다. 임의로 64봉지를 뽑아서 평균을 구한 결과 121.7g 이다. 과거에 자료에 의하면 봉지당 함량의 표준편차는 12g이라한다.유의수준 5%에서 평균이 125g이라고 할 수 있는지 검정하고, 봉지당 평균 함량의 95%신뢰구간을 구해서 가설검정을 시행하라 H0 : $$\mu = 125$$ H1 :..
통계 검정방법 - T검정 개념설명 죄송합니다. 아래수식을 html에 맞추다보니 깨지는 것 같습니다. 조만간 수정하겠습니다. 통계 검정에서 주로 많이 사용하는 것은 T검정, F검정 Z검정이 있습니다. 이 포스팅에서는 T검정에 대하여 설명해드리겠습니다. 1. 집단이 1개 , 모분산을 알고 있고, 평균을 구하고 싶은 경우 양측 검정이라면 | t0 | $$ \geq $$ t$\alpha/2$ 라면 H0를 기각한다. T ~ t (n-1) 예제문제 : 창던지기 선수의 10회 기록을 조사한 데이터는 다음과 같다.[ 64 , 64.8 , 66, 63.5, 65, 68, 67 , 63.6, 67.6, 68.9]창던지기 거리의 평균이 65m가 넘는다는 주장을 유의수준 5%에서 검정 ( 창던지기 거리는 정규분포를 따른다고 가정한다. ) H0 : $$\mu ..
통계의 그룹별 분석의 기초 - Anova ( 분산 분석 ) 통계 및 분석에서 가장 기초가 되는 Anova 분석입니다. (일원분산분석 뿐만아니라 다중분산분석이 있지만 다루지않았습니다. 추후에 추가하겠습니다.) 1. 일원분산분석 1) 정의 표본의 분산에 대한 차이를 검정하는 방법은 카이제곱 검정과 F Test(F 검정)으로 구분된다. 카이제곱 검정은 단일표본의 모집단이 정규분포를 따르며 분산을 미리 알고 있는 경우에 적용된다. 그러나 통계 과정에서 이를 알고 있는 경우는 드물기 때문에 모집단을 알고 있지 않은 경우의 F Test를 중심으로 분석한다. F Test는 두 표본의 분산에 대한 차이가 통계적으로 유의한가를 판별하는 검정기법이다. 분산의 유의차 분석이기 때문에 var test로도 불린다. R2 = SSR / SSE ( 1에 가까울 수록 종속변수가 설명되는 양..
csv 저장 속도가 느릴 경우에 multiprocessing csv save 방법 주로 pandas의 대용량의 데이터를 저장하려고 한적이 있으시죠? 하지만 데이터가 클수록 메모리도 많이 차지하고, 속도도 엄청느리다는 것을 느끼셨겠죠 아래의 코드는 메모리는 일단 고려하지 않았고, 대용량의 데이터를 쓰레드를 이용하여, 파일을 나누어 빠르게 저장하는 코드입니다. ( 메모리 사양에 따라서 process 부분을 조정하시면 됩니다. ) 1. Python example ===> 테이블을 10만건씩 나누어서 파일로 저장 from multiprocessing import Process,Queue import os def big_table_save(num, table): table.to_csv(os.path.join('./test2','_'+str(num)+'.csv..