일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- GPT-3
- chatGPT
- 선택정렬 증명
- binary search
- 이진탐색
- 선택정렬
- Selection Sort
- haar matrix
- Binary Search Proof
- ChatGPT 설명
- Proof Selection Sort
- 이진탐색 증명
- Discrete Wavelet Transform
- BERT
Archives
- Today
- Total
Just Do IT
일반화(Generalization), 과대적합(Overfitting), 과소적합(Underfitting) 본문
본 포스팅은 유튜브 이수안컴퓨터연구소의 강의를 정리하여 만들었습니다.
https://www.youtube.com/watch?v=fVUinLbWBeQ&list=PL7ZVZgsnLwEF6iyCXbinHLm9nhokrPjdy&index=11
과소적합, 일반화, 과대적합
일반화(Generalization)
- 일반적으로 지도 학습 모델은 train data로 훈련 시킨 뒤 test data에서도 예측이 정확하기를 기대한다.
- 훈련된 모델이 처음보는 데이터에 대해 정확하게 예측한다면 이 상태를 모델이 일반화 되었다고 한다.
- 모델이 항상 일반화 되는 것은 아니다
과대적합(Overfitting)
- 주어진 훈련 데이터에 비해 복잡한 모델을 사용하면, 모델은 train data에서만 정확한 성능을 내고, test data에서는 낮은 성능을 보인다.
- 모델이 train data는 잘 예측하지만 일반적인 특징을 학습하지 못해서 test data에서는 낮은 성능을 보이면 과대적합이라고 한다.
과소적합(Underfitting)
- train data에 비해 너무 간단한 모델을 사용하면 모델은 데이터의 다양한 정보를 제대로 학습하지 못한다.
- 이러한 경우 train, test data 모두 낮은 성능을 보이는데 이를 과소적합 되었다고 한다.
모델 복잡도와 데이터셋 크기의 관계
- 데이터의 다양성이 클수록 더 복잡한 모델을 사용하여 좋은 성능을 얻을 수 있다.
- 일반적으로 큰 데이터셋은 다양성이 높기 때문에 복잡한 모델을 사용할 수 있다.
- 그러나 같은 데이터를 중복하거나 비슷한 데이터를 모으는 것은 다양성 증가에 도움이 되지 않는다.
- 데이터를 많이 수집하고 적절한 모델을 만들어 지도학습을 이용하면 놀라운 결과를 얻을 수 있다.
- 붉은색 선은 Generalization loss이고 파란색 선은 Training loss이다.
- 과소적합과 과대적합을 피하기 위해 노란색 삼각형과 같은 적절한 단계에서 모델 학습을 마쳐야 한다.
'AI Study > ML 개념' 카테고리의 다른 글
내가 보려고 만든 Normal equation부터 AdamW까지 optimizer 총정리 (1) | 2023.12.11 |
---|---|
이진 분류기의 성능 평가 척도 (Confusion Matrix) (1) | 2022.02.04 |
ML의 간단한 종류 정리 (0) | 2022.02.03 |
ML의 간단한 개념 정리 (0) | 2022.02.03 |
Comments