분석 (6) 썸네일형 리스트형 Random Forests 참고 : https://www.kaggle.com/nickneim/exercise-random-forests/edit 참고 : https://sdsf1225.tistory.com/25 Decision-Tree에서는 Underfitting과 Overfitting의 문제 사이에서 Sweet-spot을 찾는 것이 문제점이라고 다뤘었다 Random Forests기법은 Decision-Tree의 이러한 문제점을 보완하기 위해서 1개의 Tree가 아니라 여러개의 'Trees'를 사용해서 각 Tree의 평균을 구해서 예측에 활용한다 간단한 Random Forest 구현 from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean.. Underfitting & Overfitting 참고 : https://www.kaggle.com/dansbecker/underfitting-and-overfitting Underfitting and Overfitting Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com Overfitting / Underfitting 이란? 모든 집(House)을 위의 그림 처럼 Decision-Tree를 사용해서 분류한다고 하자. 이때, 한개의 기준(가지; branch)으로 나누어 지면 2가지의 경우의 수(잎; leaf)가 생기게 된다. 이를 반복해서 10개의 기준으로 전체 데이터를 나눈다고 가정하면, 무려 \(.. Model Validation(모델 검증) 참고 : https://www.kaggle.com/learn/intro-to-machine-learning Model Validation이란? 말 그대로 내가 만든 모델의 성능(ML에서는 주로 예측 성능)이 적절한지 검증하는 것이다. 검증에 사용되는 수식(Metrics) MAE(Mean Absolute Error) MSE(Mean Squared Error) MAE 구현 import pandas as pd # Load data melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' melbourne_data = pd.read_csv(melbourne_file_path) # Filter rows with missing price v.. 로지스틱 회귀분석 왜 '로지스틱 회귀'를 사용하는가? 종속변수가 이항분포를 따르는 범주형(Categorical) 변수일 경우 사용하는 분류기법이다. 위의 경우, 일반적인 회귀분석을 적용할 수 없기 때문이다. 종류 일반 회귀모델 로지스틱 회귀모델 결과 종속변수(Y)의 범위 -∞ ~ +∞ 0 or 1 범위 불일치 독립변수/설명변수(X)의 범위 -∞ ~ +∞ -∞ ~ +∞ 범위 일치 예) 공부시간(0~∞시간)과 시험합격여부(탈락 / 합격) 로지스틱 회귀의 원리 선형회귀에서는 회귀식을 \(Y = ax+b\) 라고 가정했다면, 로지스틱 회귀에서는 회귀식을 \(P(Y = 1)\) 로 가정한다.즉, \(P(Y = 1) = ax + b\) 이다. 위의 경우에서의 문제점은 서로 다른 범위를 가진 두 변수(종속/독립)를 하나의 함수로 연결.. 경사하강법(Gradient Descent) '경사하강법'은 함수의 1차 미분계수를 이용하여 함수의 최소값(최대값)을 구하는 방법이다. '경사하강법'을 사용하는 이유 경사하강법의 목적은 함수의 '최소값'을 구하기 위함이다. Q. 최소값을 구하는 것이 목적이라면 미분계수 값이 0인 점을 찾으면 되는것이 아닌가? 실제로 분석하는 데이터의 함수는 닫힌 형태(closed form)이 아니거나, 형태가 복잡해서 미분계수와 근을 구하기 어려운 경우가 있다. 실제 미분계수를 컴퓨터로 구현하는 것보다 Gradient Descent를 구현하는 것이 더 쉽다. 데이터양이 방대한 경우, iterative한 방법을 통해 값을 구하면 계산량 측면에서 더 효율적이다. '경사하강법'의 수식유도 과정 0. Check-Point 기울기의 부호(+/-) 기울기의 절댓값 1. 기울.. GLM(Generalized Linear Models) GLM이란? GLM이란 종속변수 y의 error term이 정규분포가 아닌 다른 분포를 가지는 경우를 포함하는 여러가지 모델들을 아우르는 표현이다. GLM은 Linear Regression, Logistic Regression, Poisson Regression을 포함한다. GLM의 model들은 y와 x의 관계가 선형이 아니더라도 'Link Function'을 통해서 선형관계를 만들어 줄 수 있다. 이 경우, y에 대한 error term은 정규분포가 아니어도 괜찮다. 특히, error term이 'exponential family distribution'을 가지고 있는 경우를 가정하는데, 이러한 경우에도 linear model을 일반화 시킬 수 있어야 하므로 'Generalized Linear Mod.. 이전 1 다음