통계 (3) 썸네일형 리스트형 Logit & Sigmoid Logit Logit함수에 대해 설명하기 전에, Odds와 Probability의 개념에 대해 알아보겠습니다. Probability(확률) 우선, Probability(확률)는 다들 알고 계시겠지만, 전체 시행(S) 중 어떠한 사건($X$)가 일어나는 경우의 수의 비율을 의미합니다. 즉, $\frac{n(X)}{n(S)}$로 표현할 수 있으며, 이를 $P(X)$라고 표기하겠습니다. Odds 여기서 Odds는 느낌적으로 표현하자면, 확률의 확률이라고 할 수 있을 것 같습니다. 즉, X라는 사건이 일어날 확률과 X라는 사건이 일어나지 않을 확률이라고 할 수 있으며, $\frac{P(X)}{P(X^c)}$로 표현할 수 있습니다. 이를 Binary Case로 다시 표현하면, 두 경우의 수 $A$와 $B$를 기준.. 경사하강법(Gradient Descent) '경사하강법'은 함수의 1차 미분계수를 이용하여 함수의 최소값(최대값)을 구하는 방법이다. '경사하강법'을 사용하는 이유 경사하강법의 목적은 함수의 '최소값'을 구하기 위함이다. Q. 최소값을 구하는 것이 목적이라면 미분계수 값이 0인 점을 찾으면 되는것이 아닌가? 실제로 분석하는 데이터의 함수는 닫힌 형태(closed form)이 아니거나, 형태가 복잡해서 미분계수와 근을 구하기 어려운 경우가 있다. 실제 미분계수를 컴퓨터로 구현하는 것보다 Gradient Descent를 구현하는 것이 더 쉽다. 데이터양이 방대한 경우, iterative한 방법을 통해 값을 구하면 계산량 측면에서 더 효율적이다. '경사하강법'의 수식유도 과정 0. Check-Point 기울기의 부호(+/-) 기울기의 절댓값 1. 기울.. GLM(Generalized Linear Models) GLM이란? GLM이란 종속변수 y의 error term이 정규분포가 아닌 다른 분포를 가지는 경우를 포함하는 여러가지 모델들을 아우르는 표현이다. GLM은 Linear Regression, Logistic Regression, Poisson Regression을 포함한다. GLM의 model들은 y와 x의 관계가 선형이 아니더라도 'Link Function'을 통해서 선형관계를 만들어 줄 수 있다. 이 경우, y에 대한 error term은 정규분포가 아니어도 괜찮다. 특히, error term이 'exponential family distribution'을 가지고 있는 경우를 가정하는데, 이러한 경우에도 linear model을 일반화 시킬 수 있어야 하므로 'Generalized Linear Mod.. 이전 1 다음