로지스틱 회귀분석

왜 '로지스틱 회귀'를 사용하는가?

종속변수가 이항분포를 따르는 범주형(Categorical) 변수일 경우 사용하는 분류기법이다.

위의 경우, 일반적인 회귀분석을 적용할 수 없기 때문이다.

예) 공부시간(0~∞시간)과 시험합격여부(탈락 / 합격)

선형회귀에서는 회귀식을 \(Y = ax+b\) 라고 가정했다면, 로지스틱 회귀에서는 회귀식을 \(P(Y = 1)\) 로 가정한다.즉, \(P(Y = 1) = ax + b\) 이다.

위의 경우에서의 문제점은 서로 다른 범위를 가진 두 변수(종속/독립)를 하나의 함수로 연결지어야 한다는 점이다.

기존의 회귀모델을 사용해서는 이 문제점을 해결할 수 없으며
결국 두 변수의 범위를 일치시키는 과정이 로지스틱 회귀의 핵심이라고 볼 수 있다.

이항(성공 / 실패) → 확률(0 ~ 1) : 로지스틱 함수[Logistic(Sigmoid) Function], Odds(승산)
- \( odds=\frac { P(A) }{ P({ A }^{ c }) } =\frac { P(A) }{ 1-P(A) } \)
- \( { P(A) } → 0 \) : \( odds → 0 \)
- \( {P(A)} → 1\) : \(odds → ∞\)
- 종속변수(\(odds\))의 범위가 \(0 \sim ∞\)로 바뀌게 된다.
- 하지만, 독립변수와 달리, 아직 음수에서 정의되지 않는다.
'음의 무한대부터 양의 무한대까지'로 범위 확장하기
- \(log{(odds)} \)
- \(log\)를 취하게 되면, 종속변수의 범위가 음의 무한대 부터 양의 무한대로 확장된다.

로지스틱 회귀는 서로 다른 성질을 가진 두 변수를 하나의 회귀식으로 연결(Link)하는 문제이기 때문에, GLM의 한 종류라고 할 수 있다.

그리고 이 GLM에서 핵심적인 부분이 Link Function인데, 로지스틱 회귀의 Link Function이 바로 'Logistic / Sigmoid'함수이다.

\(\log { (\frac { P(Y=1|X=\overrightarrow { x } ) }{ 1-P(Y=1|X=\overrightarrow { x } ) } ) } ={ \overrightarrow { \beta } }^{ T }\overrightarrow { x }\) 이 최종적으로 로지스틱 회귀모델의 식이 된다.
회귀 계수 벡터 \(beta\)의 의미
- 입력벡터 \(x\)의 첫번째 요소인 \(x_1\)에 대응하는 회귀계수 \(beta_1\)이 2.5로 나왔다고 한다면, \(x_1\)이 한단위 증가할 때, \((Y = 1)\)에 해당하는 로그 승산이 2.5 커지게 된다.

Q. 결정경계(Decision Boundary)란?
- 결정경계란, (이항)로지스틱 회귀에서 각 \(X\)에 해당되는 \(Y\)가 1로 분류 될지, 0으로 분류될지를 결정하는 경계라고 생각하면 된다.
\(P(Y=1|X=\overrightarrow { x } )>P(Y=0|X=\overrightarrow { x } )\) 라면, '범주_1'로 분류 가능 할 것이다.
이를 치환, 정리하면
- \(p\left( x \right) >1-p\left( x \right)\)
  
  \(\frac { p\left( x \right) }{ 1-p\left( x \right) } >1\)
  
  \(\log { \frac { p\left( x \right) }{ 1-p\left( x \right) } } >0\)
  
  \(\therefore { \overrightarrow { \beta } }^{ T }\overrightarrow { x } >0\)
- 이를 시각화 하면,

Optimization - Cross validation, Bias & Variance, Bootstrapping (0)	2023.03.08
Random Forests (0)	2021.09.03
Underfitting & Overfitting (0)	2021.08.26
Model Validation(모델 검증) (2)	2021.08.21
경사하강법(Gradient Descent) (0)	2021.08.14