본문 바로가기

ML,DL

로지스틱 회귀분석

'로지스틱 회귀'를 사용하는가?

  • 종속변수가 이항분포를 따르는 범주형(Categorical) 변수일 경우 사용하는 분류기법이다.
    • 위의 경우, 일반적인 회귀분석을 적용할 수 없기 때문이다.
      종류 일반 회귀모델 로지스틱 회귀모델 결과
      종속변수(Y)의 범위 -∞ ~ +∞ 0 or 1 범위 불일치
      독립변수/설명변수(X)의 범위 -∞ ~ +∞ -∞ ~ +∞ 범위 일치
      예) 공부시간(0~∞시간)과 시험합격여부(탈락 / 합격)
      일반선형회귀와 로지스틱 회귀의 차이

로지스틱 회귀의 원리

선형회귀에서는 회귀식을 \(Y = ax+b\) 라고 가정했다면, 로지스틱 회귀에서는 회귀식을 \(P(Y = 1)\) 로 가정한다.즉, \(P(Y = 1) = ax + b\) 이다.

 

위의 경우에서의 문제점은 서로 다른 범위를 가진 두 변수(종속/독립)를 하나의 함수로 연결지어야 한다는 점이다.

기존의 회귀모델을 사용해서는 이 문제점을 해결할 수 없으며
결국 두 변수의 범위를 일치시키는 과정이 로지스틱 회귀의 핵심이라고 볼 수 있다.


종속변수의 범위 바꾸기

  1. 이항(성공 / 실패) → 확률(0 ~ 1) : 로지스틱 함수[Logistic(Sigmoid) Function], Odds(승산)
    • \( odds=\frac { P(A) }{ P({ A }^{ c }) } =\frac { P(A) }{ 1-P(A) } \)
    • \( { P(A) } → 0 \) : \( odds → 0 \)
    • \( {P(A)} → 1\) : \(odds → ∞\)
    • 종속변수(\(odds\))의 범위가 \(0 \sim ∞\)로 바뀌게 된다.
    • 하지만, 독립변수와 달리, 아직 음수에서 정의되지 않는다.
  2. '음의 무한대부터 양의 무한대까지'로 범위 확장하기
    • \(log{(odds)} \)
    • \(log\)를 취하게 되면, 종속변수의 범위가 음의 무한대 부터 양의 무한대로 확장된다.

 

로지스틱 회귀는 서로 다른 성질을 가진 두 변수를 하나의 회귀식으로 연결(Link)하는 문제이기 때문에, GLM의 한 종류라고 할 수 있다.

그리고 이 GLM에서 핵심적인 부분이 Link Function인데, 로지스틱 회귀의 Link Function이 바로 'Logistic / Sigmoid'함수이다.

2021.08.05 - [공부/ML] - GLM(Generalized Linear Models)

  • 로지스틱 함수(Logistic Function; Sigmoid Function)

로지스틱 회귀에 대한 해석

  • \(\log { (\frac { P(Y=1|X=\overrightarrow { x } ) }{ 1-P(Y=1|X=\overrightarrow { x } ) } ) } ={ \overrightarrow { \beta } }^{ T }\overrightarrow { x }\) 이 최종적으로 로지스틱 회귀모델의 식이 된다.
  • 회귀 계수 벡터  \(beta\)의 의미
    • 입력벡터 \(x\)의 첫번째 요소인 \(x_1\)에 대응하는 회귀계수 \(beta_1\)이 2.5로 나왔다고 한다면, \(x_1\)이 한단위 증가할 때, \((Y = 1)\)에 해당하는 로그 승산이 2.5 커지게 된다.

로지스틱 회귀의 결정경계(Decision Boundary)

  • Q. 결정경계(Decision Boundary)란?
    • 결정경계란, (이항)로지스틱 회귀에서 각 \(X\)에 해당되는 \(Y\)가 1로 분류 될지,  0으로 분류될지를 결정하는 경계라고 생각하면 된다.
  • \(P(Y=1|X=\overrightarrow { x } )>P(Y=0|X=\overrightarrow { x } )\) 라면, '범주_1'로 분류 가능 할 것이다.
  • 이를 치환, 정리하면
    • \(p\left( x \right) >1-p\left( x \right)\)

      \(\frac { p\left( x \right) }{ 1-p\left( x \right) } >1\)

      \(\log { \frac { p\left( x \right) }{ 1-p\left( x \right) } } >0\)

      \(\therefore { \overrightarrow { \beta } }^{ T }\overrightarrow { x } >0\)
    • 이를 시각화 하면,

 

 

참고 : https://ratsgo.github.io/machine%20learning/2017/04/02/logistic/

'ML,DL' 카테고리의 다른 글

Optimization - Cross validation, Bias & Variance, Bootstrapping  (0) 2023.03.08
Random Forests  (0) 2021.09.03
Underfitting & Overfitting  (0) 2021.08.26
Model Validation(모델 검증)  (2) 2021.08.21
경사하강법(Gradient Descent)  (0) 2021.08.14