Just Do IT

일반화(Generalization), 과대적합(Overfitting), 과소적합(Underfitting) 본문

AI Study/ML 개념

일반화(Generalization), 과대적합(Overfitting), 과소적합(Underfitting)

풀용 2022. 2. 4. 22:38

본 포스팅은 유튜브 이수안컴퓨터연구소의 강의를 정리하여 만들었습니다.

https://www.youtube.com/watch?v=fVUinLbWBeQ&list=PL7ZVZgsnLwEF6iyCXbinHLm9nhokrPjdy&index=11

과소적합, 일반화, 과대적합

docs.aws.amazon.com/machine-learning

일반화(Generalization)

  • 일반적으로 지도 학습 모델은 train data로 훈련 시킨 뒤 test data에서도 예측이 정확하기를 기대한다.
  • 훈련된 모델이 처음보는 데이터에 대해 정확하게 예측한다면 이 상태를 모델이 일반화 되었다고 한다.
  • 모델이 항상 일반화 되는 것은 아니다

과대적합(Overfitting)

  • 주어진 훈련 데이터에 비해 복잡한 모델을 사용하면, 모델은 train data에서만 정확한 성능을 내고, test data에서는 낮은 성능을 보인다.
  • 모델이 train data는 잘 예측하지만 일반적인 특징을 학습하지 못해서 test data에서는 낮은 성능을 보이면 과대적합이라고 한다.

과소적합(Underfitting)

  • train data에 비해 너무 간단한 모델을 사용하면 모델은 데이터의 다양한 정보를 제대로 학습하지 못한다.
  • 이러한 경우 train, test data 모두 낮은 성능을 보이는데 이를 과소적합 되었다고 한다.

모델 복잡도와 데이터셋 크기의 관계

  • 데이터의 다양성이 클수록 더 복잡한 모델을 사용하여 좋은 성능을 얻을 수 있다.
  • 일반적으로 큰 데이터셋은 다양성이 높기 때문에 복잡한 모델을 사용할 수 있다.
  • 그러나 같은 데이터를 중복하거나 비슷한 데이터를 모으는 것은 다양성 증가에 도움이 되지 않는다.
  • 데이터를 많이 수집하고 적절한 모델을 만들어 지도학습을 이용하면 놀라운 결과를 얻을 수 있다.

X축 - 모델 복잡도 y축 - loss (Wikipedia)

  • 붉은색 선은 Generalization loss이고 파란색 선은 Training loss이다.
  • 과소적합과 과대적합을 피하기 위해 노란색 삼각형과 같은 적절한 단계에서 모델 학습을 마쳐야 한다.
Comments