본문 바로가기

데이터분석

(3)
Random Forests 참고 : https://www.kaggle.com/nickneim/exercise-random-forests/edit 참고 : https://sdsf1225.tistory.com/25 Decision-Tree에서는 Underfitting과 Overfitting의 문제 사이에서 Sweet-spot을 찾는 것이 문제점이라고 다뤘었다 Random Forests기법은 Decision-Tree의 이러한 문제점을 보완하기 위해서 1개의 Tree가 아니라 여러개의 'Trees'를 사용해서 각 Tree의 평균을 구해서 예측에 활용한다 간단한 Random Forest 구현 from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean..
Underfitting & Overfitting 참고 : https://www.kaggle.com/dansbecker/underfitting-and-overfitting Underfitting and Overfitting Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com Overfitting / Underfitting 이란? 모든 집(House)을 위의 그림 처럼 Decision-Tree를 사용해서 분류한다고 하자. 이때, 한개의 기준(가지; branch)으로 나누어 지면 2가지의 경우의 수(잎; leaf)가 생기게 된다. 이를 반복해서 10개의 기준으로 전체 데이터를 나눈다고 가정하면, 무려 \(..
경사하강법(Gradient Descent) '경사하강법'은 함수의 1차 미분계수를 이용하여 함수의 최소값(최대값)을 구하는 방법이다. '경사하강법'을 사용하는 이유 경사하강법의 목적은 함수의 '최소값'을 구하기 위함이다. Q. 최소값을 구하는 것이 목적이라면 미분계수 값이 0인 점을 찾으면 되는것이 아닌가? 실제로 분석하는 데이터의 함수는 닫힌 형태(closed form)이 아니거나, 형태가 복잡해서 미분계수와 근을 구하기 어려운 경우가 있다. 실제 미분계수를 컴퓨터로 구현하는 것보다 Gradient Descent를 구현하는 것이 더 쉽다. 데이터양이 방대한 경우, iterative한 방법을 통해 값을 구하면 계산량 측면에서 더 효율적이다. '경사하강법'의 수식유도 과정 0. Check-Point 기울기의 부호(+/-) 기울기의 절댓값 1. 기울..