Deep learning에서 중요한 요소인 optimization에 대해 정리해보려 한다. Optimization에는 수많은 요소들이 있고 이를 전부 다 알고 있을 수는 없지만 그 중에서도 가장 널리 쓰이고 중요한 개념들만을 정리할 것이다.
Generalization(일반화)
- 학습시킨 모델이 학습에 사용된 데이터 말고도 다른 데이터에 대해 얼마나 잘 Fit 하는지에 대한 개념
Underfitting vs Overfitting
- underfitting의 경우, 모델(파란선)이 데이터를 전체적으로 잘 표현하지 못하며 대략적인 추세만을 나타낸다.
- overfitting의 경우, 모델이 데이터에 과도하게 맞춰져있어 학습에 사용된 데이터는 잘 표현할 수 있지만 그렇지 않은 데이터에 대한 설명력은 떨어진다.
Cross Validation
- Cross validation은 이러한 under/overfitting 문제를 다루기 위한 하나의 테크닉인데 하나의 데이터셋에 overfitting되지 않게 하기 위해서 train, test 데이터셋을 교차적(cross)으로 지정해 검증(validation)하는 방식이다.
- Cross validation 전략도 세부적으로는 다양한 종류가 있는데 "이곳"에 정리되어 있다.
Bias & Variance
- Bias
- Target 값에서 데이터가 떨어져 있는 정도
- Variance
- 데이터들의 퍼짐 정도
- Trade-off
- Model을 optimizing시킬 때, 사용하는 cost는 bias, variance, nosie로 분해가 가능하고 bias와 variance는 trade-off 관계를 가진다.
- 참고 : https://ratsgo.github.io/machine%20learning/2017/05/19/biasvar/
Bias-Variance Decomposition · ratsgo's blog
이번 글에서는 Bias-Variance Decomposition에 대해 살펴보도록 하겠습니다. 이번 글 역시 고려대 강필성 교수님 강의를 정리했음을 먼저 밝힙니다. 그럼 시작하겠습니다. 수식적 이해 Bias-Variance Decomposi
ratsgo.github.io
Bootstrapping
- 모집단 전체의 데이터를 수집해서 분석하는 것은 현실적으로 어렵기 때문에 random sampling과 복원 추출을 통해 표본 만으로도 모집단의 분포와 유사한 데이터셋을 사용하는 방식이다.
- Law of Large Numbers와 유사한 개념
'ML,DL' 카테고리의 다른 글
밑러닝 (1) - CH.2 (0) | 2024.04.22 |
---|---|
Ensemble - Bagging, Boosting, Stacking (0) | 2023.03.08 |
Random Forests (0) | 2021.09.03 |
Underfitting & Overfitting (0) | 2021.08.26 |
Model Validation(모델 검증) (2) | 2021.08.21 |