본문 바로가기

ML,DL

Optimization - Cross validation, Bias & Variance, Bootstrapping

Deep learning에서 중요한 요소인 optimization에 대해 정리해보려 한다. Optimization에는 수많은 요소들이 있고 이를 전부 다 알고 있을 수는 없지만 그 중에서도 가장 널리 쓰이고 중요한 개념들만을 정리할 것이다.

Generalization(일반화)

  • 학습시킨 모델이 학습에 사용된 데이터 말고도 다른 데이터에 대해 얼마나 잘 Fit 하는지에 대한 개념

Underfitting vs Overfitting

  • underfitting의 경우, 모델(파란선)이 데이터를 전체적으로 잘 표현하지 못하며 대략적인 추세만을 나타낸다.
  • overfitting의 경우, 모델이 데이터에 과도하게 맞춰져있어 학습에 사용된 데이터는 잘 표현할 수 있지만 그렇지 않은 데이터에 대한 설명력은 떨어진다.

Cross Validation

  • Cross validation은 이러한 under/overfitting 문제를 다루기 위한 하나의 테크닉인데 하나의 데이터셋에 overfitting되지 않게 하기 위해서 train, test 데이터셋을 교차적(cross)으로 지정해 검증(validation)하는 방식이다.
  • Cross validation 전략도 세부적으로는 다양한 종류가 있는데 "이곳"에 정리되어 있다.

Bias & Variance

Bias & Variance

  • Bias
    • Target 값에서 데이터가 떨어져 있는 정도
  • Variance
    • 데이터들의 퍼짐 정도
  • Trade-off
    • Model을 optimizing시킬 때, 사용하는 cost는 bias, variance, nosie로 분해가 가능하고 bias와 variance는 trade-off 관계를 가진다.
  • 참고 : https://ratsgo.github.io/machine%20learning/2017/05/19/biasvar/
 

Bias-Variance Decomposition · ratsgo's blog

이번 글에서는 Bias-Variance Decomposition에 대해 살펴보도록 하겠습니다. 이번 글 역시 고려대 강필성 교수님 강의를 정리했음을 먼저 밝힙니다. 그럼 시작하겠습니다. 수식적 이해 Bias-Variance Decomposi

ratsgo.github.io

Bootstrapping

  • 모집단 전체의 데이터를 수집해서 분석하는 것은 현실적으로 어렵기 때문에 random sampling과 복원 추출을 통해 표본 만으로도 모집단의 분포와 유사한 데이터셋을 사용하는 방식이다.
  • Law of Large Numbers와 유사한 개념

bootstrapping : https://blogs.sas.com/content/iml/files/2018/12/bootstrapSummary.png

 

'ML,DL' 카테고리의 다른 글

밑러닝 (1) - CH.2  (0) 2024.04.22
Ensemble - Bagging, Boosting, Stacking  (0) 2023.03.08
Random Forests  (0) 2021.09.03
Underfitting & Overfitting  (0) 2021.08.26
Model Validation(모델 검증)  (2) 2021.08.21