본문 바로가기

전체 글

(38)
예측력이 좋은 XGBoost Regression 개념 및 python 예제 XGBoost Regression 방법의 모델은 예측력이 좋아서 주로 많이 사용된다. 1. 정의 약한 분류기를 세트로 묶어서 정확도를 예측하는 기법이다. 욕심쟁이(Greedy Algorithm)을 사용하여 분류기를 발견하고 분산처리를 사용하여 빠른 속도로 적합한 비중 파라미터를 찾는 알고리즘이다. boostin 알고리즘이 기본원리 2. 장점 병렬 처리를 사용하기에 학습과 분류가 빠르다 유연성이 좋다. 커스텀 최적화 옵션을 제공한다 욕심쟁이(Greedy-algorithm)을 사용한 자동 가지치기가 가능하다. 과적합이 잘일어나지 않는다. 다른 알고리즘과 연계하여 앙상블 학습이 가능하다. 3. 수식 예 Y = w1 * M(x)+ w2 * G(x)+ w3 * H(x) + error ==> 세개의 모델이 함게 적..
서포트 벡터 머신 SVM ( Support Vector Machine)의 개념 및 python예제 서포트 백터 머신 SVM ( Support Vector Machine) 지도학습을 위한 가장 기본적인 방법 1. 정의 분리된 초평면에 의해 정의된 분류 모델이다. 최적의 초평면을 찾는 것 가장 최적의 의사 결정 경계는 모든 클래스의 가장 가까운 점으로부터 최대 마진을 갖는 결정 경계입니다. 결정 경계와 점 사이의 거리를 최대화하는 결정 경계로부터의 가장 가까운 점을 그림 2에서 보듯이 Support Vector 라고 부른다. Support Vector 의 결정 경계는 최대 마진 분류기 또는 최대 마진 하이퍼 평면이라고 불린다. python에서 svm kernel의 종류 ==> linear, poly(다항), rbf(가우시안), sigmoid(시그모이드) 2. Python Example from sklea..
정규화 선형회귀( Regularization Regression ) - ridge, lasso, elasticnet 개념과 python 예제 정규화 선형회귀 ( Regularization Regression ) - ridge, lasso, elasticnet 1. Ridge Regression 1) 정의 Ridge 회귀모형에서는 가중치들의 제곱합(squared sum of weights)을 최소화하는 것을 추가적인 제약 조건으로 한다. λ는 기존의 잔차 제곱합과 추가적 제약 조건의 비중을 조절하기 위한 하이퍼 모수(hyper parameter)이다. λ가 크면 정규화 정도가 커지고 가중치의 값들이 작아진다. λ가 작아지면 정규화 정도가 작아지며 λ 가 0이 되면 일반적인 선형 회귀모형이 된다. 2) python Example from sklearn.datasets import load_boston from sklearn.linear_model..
Random Forest Regression ( 랜덤포래스트 회귀 ) 개념 및 python 예제 Random Forest Regression ( 랜덤포래스트 ) 방법을 말씀드리겠습니다. 1. 정의 랜덤 포래스트는 앙상블 기법 중 하나이다. - bagging 2. Python Example from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split from sklearn import ensemble from sklearn.metrics import mean_squared_error import pandas as pd from sklearn.ensemble import RandomForestRegressor import numpy as np import matplotlib.pyplot as plot..
Logistic Regression (로지스틱 회귀) 개념 및 python 예제 Logistic Regression ( 로지스틱 회귀 ) --> 딥러닝을 위하여 알아둬야하는 가장 중요한 부분 ( 이미지 분류방법의 기초 ) 1. 정의 회귀분석이지면 분류성격을 갖고 있다. Regression이라해서 연속형 Y값을 예측하는 것 같지만, 범주형인 경우에 사용하는 분류 방법이다. 왼쪽 그림의 경우 Y가 0또는 1인 경우라면 선형회귀로는 fitting하기 힘들다. 따라서 곡선으로 fitting하기 위해 사용하는 것이 로지스틱함수(로짓변환)이다. odds_ratio = p/(1-p) example ) 실패에 비해 생존할 확률의비 = 0.38/0.62 = 0.61 ( 백명 사망할 동한 61명 생존) 이것을 로짓변환하여 사용 보통 ROC Curve를 그리고 AUC (the Area Under a R..
Linear Regression ( 선형 회귀 ) 개념 및 python 예제 가장 기본적인 Linear Regression 선형회귀에 관하여 말씀드리겠습니다. 1. 정의 독립변수 x와 종속변수 y간의 관계를 정량적으로 찾아내는 작업 만약 독립 변수 x와 이에 대응하는 종속 변수 y간의 관계가 다음과 같은 선형 함수 f(x)이면 선형 회귀분석(linear regression analysis)이라고 한다. 2. Python Example #python from sklearn.datasets import load_boston from sklearn.linear_model import LinearRegression import matplotlib.pyplot as plt boston = load_boston() model_boston = LinearRegression(fit_interc..
KNN Regression ( K-근접이웃 회귀 _ (K-nearest neighbors) ) 개념 및 python 예제 KNN(K-nearest neighbors) Regression -> K-근접이웃 회귀 1. 정의 가까운 점들을 기준으로 , 점들의 평균으로 예측하는 것 2. 작동방식 13번 점을 예측하고자 할 경우, k=3이다. 선택된 점은 6, 5, 1번점이 선택되었고, 13Predict = (77+72+60)/3 = 69.66 3. 거리 계산방법 1). Euclidean Distance: Euclidean distance is calculated as the square root of the sum of the squared differences between a new point (x) and an existing point (y). 2). Manhattan Distance : This is the distanc..
Generalized linear Model ( 일반화 선형모델 - GLM ) 개념 및 python 예제 Generalized linear Model - 일반화 선형 모델 ( GLM ) 1. 정의 1) 종속변수가 정규분포하지 않는 경우를 포함하는 선형모형의 확장 2) family라는 인자의 따라 link함수가 달라진다. 종속변수의 분포가 정규분포인 경우 Gaussian 종속변수의 분포가 이항분포 경우 binomial 종속변수의 분포가 포아송인 경우 Poisson 종속변수의 분포가 역정규분포인 경우 inverse gaussian 종속변수의 분포가 감마분포인 경우 gamma 3) 대표적모델 종속변수가 0 아니면 1인 경우 : Logistic regression 종속변수가 순위나 선호도와 같이 순서만 있는 데이터 : ordinal regression 종속변수가 개수를 나타내는 경우 : poisson Regress..