본문 바로가기

Machine Learning

(18)
Random Forest Regression ( 랜덤포래스트 회귀 ) 개념 및 python 예제 Random Forest Regression ( 랜덤포래스트 ) 방법을 말씀드리겠습니다. 1. 정의 랜덤 포래스트는 앙상블 기법 중 하나이다. - bagging 2. Python Example from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split from sklearn import ensemble from sklearn.metrics import mean_squared_error import pandas as pd from sklearn.ensemble import RandomForestRegressor import numpy as np import matplotlib.pyplot as plot..
Logistic Regression (로지스틱 회귀) 개념 및 python 예제 Logistic Regression ( 로지스틱 회귀 ) --> 딥러닝을 위하여 알아둬야하는 가장 중요한 부분 ( 이미지 분류방법의 기초 ) 1. 정의 회귀분석이지면 분류성격을 갖고 있다. Regression이라해서 연속형 Y값을 예측하는 것 같지만, 범주형인 경우에 사용하는 분류 방법이다. 왼쪽 그림의 경우 Y가 0또는 1인 경우라면 선형회귀로는 fitting하기 힘들다. 따라서 곡선으로 fitting하기 위해 사용하는 것이 로지스틱함수(로짓변환)이다. odds_ratio = p/(1-p) example ) 실패에 비해 생존할 확률의비 = 0.38/0.62 = 0.61 ( 백명 사망할 동한 61명 생존) 이것을 로짓변환하여 사용 보통 ROC Curve를 그리고 AUC (the Area Under a R..
Linear Regression ( 선형 회귀 ) 개념 및 python 예제 가장 기본적인 Linear Regression 선형회귀에 관하여 말씀드리겠습니다. 1. 정의 독립변수 x와 종속변수 y간의 관계를 정량적으로 찾아내는 작업 만약 독립 변수 x와 이에 대응하는 종속 변수 y간의 관계가 다음과 같은 선형 함수 f(x)이면 선형 회귀분석(linear regression analysis)이라고 한다. 2. Python Example #python from sklearn.datasets import load_boston from sklearn.linear_model import LinearRegression import matplotlib.pyplot as plt boston = load_boston() model_boston = LinearRegression(fit_interc..
KNN Regression ( K-근접이웃 회귀 _ (K-nearest neighbors) ) 개념 및 python 예제 KNN(K-nearest neighbors) Regression -> K-근접이웃 회귀 1. 정의 가까운 점들을 기준으로 , 점들의 평균으로 예측하는 것 2. 작동방식 13번 점을 예측하고자 할 경우, k=3이다. 선택된 점은 6, 5, 1번점이 선택되었고, 13Predict = (77+72+60)/3 = 69.66 3. 거리 계산방법 1). Euclidean Distance: Euclidean distance is calculated as the square root of the sum of the squared differences between a new point (x) and an existing point (y). 2). Manhattan Distance : This is the distanc..
Generalized linear Model ( 일반화 선형모델 - GLM ) 개념 및 python 예제 Generalized linear Model - 일반화 선형 모델 ( GLM ) 1. 정의 1) 종속변수가 정규분포하지 않는 경우를 포함하는 선형모형의 확장 2) family라는 인자의 따라 link함수가 달라진다. 종속변수의 분포가 정규분포인 경우 Gaussian 종속변수의 분포가 이항분포 경우 binomial 종속변수의 분포가 포아송인 경우 Poisson 종속변수의 분포가 역정규분포인 경우 inverse gaussian 종속변수의 분포가 감마분포인 경우 gamma 3) 대표적모델 종속변수가 0 아니면 1인 경우 : Logistic regression 종속변수가 순위나 선호도와 같이 순서만 있는 데이터 : ordinal regression 종속변수가 개수를 나타내는 경우 : poisson Regress..
Decision Tree Classification ( 의사결정분류) 개념과 python 예제 Decision Tree Classification 1. 정의 참조 : Decision Tree Regression 2. Python Example from sklearn.datasets import load_iris import io import pydot from IPython.core.display import Image from sklearn.tree import export_graphviz import matplotlib as mpl import numpy as np import matplotlib.pyplot as plt from sklearn.metrics import confusion_matrix iris = load_iris() X = iris.data[:, [2, 3]] y = iris..
모델 성능에 중요한 bias and Variance 개념 설명 ( 편향과 분산 ) bias and Variance ( 편향과 분산 ) 어느것에 치중하여 모델을 설정할 것인가 ? 이 두가지중는 목적에 따라 좋은 성능의 모델을 만드는데에 꼭 필요한 개념입니다. 이 두가지는 tradeoff(트레이드오프) 관계입니다. ( 한가지가 높으면, 다른한가지는 줄어듭니다. ) Hight Variance , low Bias ==> overfitting Low variance , High Bias ==> underfitting 1. 이미지와 함께 설명 => variance가 증가하게 된다면 , 데이터의 점들의 분산은 예측력을 좀 더 떨어뜨린다. => 그리고 bias가 커지게 된다면 실제값과 예측값의 오차는 커진다. 그럼 어떻게? => 모형에 더 많은 변수를 넣게 되면 복잡성은 증가하고, variance는..
ML에서 모델 결합 - Bagging과 Boosting 개념설명 Bagging과 Boosting 주로 머신러닝에서 많이 사용하는 기법 2가지를 설명드리겠습니다. 1. 앙상블 기법 ( Ensemble) Bagging과 Boosting이 해당 된다. 동일한 학습 알고리즘을 사용하여 여러모델을 학습시킨다. 서로 다른 모델을 결합하여 새로운 모델을 만들어내는 방법( Stacking ) 과 대조 2. Bagging 여러번 샘플을 뽑아서 각 모델을 학습시켜 결과 집계하는 방법 이렇게 하는 이유 : 알고리즘의 안정성과 정확성을 향상시키기 위해서 높은 bias로 인한 언더피팅 높은 variance로 인한 오버피팅 오버피팅을 피할 수 잇는 가장 좋은 방법 대표적으로 많이 사용되는 것으로는 Random Forest 3. Boosting bagging이 일반적인 모델을 만드는데 집중한 ..