일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Selection Sort
- 선택정렬
- Proof Selection Sort
- BERT
- Binary Search Proof
- chatGPT
- GPT-3
- binary search
- Discrete Wavelet Transform
- 선택정렬 증명
- 이진탐색
- haar matrix
- ChatGPT 설명
- 이진탐색 증명
- Today
- Total
Just Do IT
Maximum Likelihood Estimation(MLE) 이해해보기 본문
공돌이의 수학정리노트 님의 포스팅을 보고 나름대로 정리한 글 입니다.
MLE란?
MLE는 Maximum Likelihood estimation이라고 하고 한국말로는 최대 우도 추정 혹은 최대 가능도 추정이라고 한다.(개인적으로 우도라는 말보다는 가능도라는 말이 훨씬 기억하기도 쉽고 직관적인 것 같다.)
데이터 셋 $X$가 존재할 때 파라미터 $ \theta $로 구성된 확률 밀도 함수(pdf)에서 최적의 $\theta$를 찾는 방법이다.
MLE는 ML/DL을 공부하면 항상 나오는 개념이다. 당연하게도 우리는 데이터셋 $X$에 대하여 처음부터 $X$의 분포를 알 수 없기 때문에 이를 추정하기 위해 MLE의 개념을 대입한다.
처음 들으면 Likelihood가 뭔지도 모르고 어떻게 추정하는지도 모른다. 하나하나 개념을 넣어가자
Simple Example
[1,4,5,6,9]가 어떤 분포에서 Sampling되었다고 가정하자. 그렇다면 주황색과 파란색 분포 중에서 어떤 분포에서 Sampling 되었다고 가정하는게 맞을까? 당연히 주황색 분포에서 sampling 되었다고 보는게 맞을 것이다. 물론 파란색 분포에서도 아주 희박한 확률로 저렇게 sampling이 되었을 수 있다. 하지만 확률 혹은 가능성 의 측면에서 보면 주황색 분포에서 나왔을 '가능성'이 훨씬 높을 것이다. 정규분포는 파라미터 $\theta$로 $\mu$와 $\sigma$가 있다. 위의 두 분포가 정규분포라고 한다면 MLE는 주황색 분포의 $\theta$, rough하게 보아 $\mu = 5$, $\sigma = 2$를 찾아내는 것이다.
어떻게 $\mu$와 $\sigma$를 추정할까?
Likelihood Function
Likelihood, 가능도는 간단히 말해서 데이터가 해당 분포에서 나왔을 '가능도'를 뜻하고 분포의 높이를 생각하면 좋을 것 같다.
모든 데이터들이 독립적으로 추출되었다고 가정하기 때문에 각 샘플의 높이를 각각 다 곱해주면 그것이 Likelyhood가 된다. 수식으로 설명하면 $$ P(x|\theta) = \prod_{k=1}^{n}P(x_k|\theta)$$
로 표현할 수 있다.
처음 가능도를 접하면 가능도와 확률을 헷갈리기 쉬운데 그림으로 설명하자면
확률은 분포는 고정하고 특정 data가 발생할 확률 즉, 분포의 '넓이'가 되고, 가능도는 data는 고정하고 특정 분포에서 데이터가 나올 가능도 즉, 분포의 '높이'가 되는 것이다.
보통 가능도는 위의 식처럼 표현하지 않고 log를 씌워 덧셈으로 바꾼 log likelihood를 많이 사용한다. $$ L(\theta|x) = logP(x|\theta) = \sum_{k=1}^{n}logP(x_k|\theta) $$
위의 식에서 $ L(\theta|x) $ 와 $ logP(x|\theta) $를 보면 두 인자의 위치가 바뀌었는데, 이는 표기방법이지 잘못 표기한게 아니다.
Maximum Likelihood Estimation
그렇다면 위의 식을 가지고 어떻게 가능도를 maximize하는 parameter를 찾는걸까? 이는 미분으로 찾을 수 있다. 만약 정규분포라면 미분해서 0이되는 $\mu$와 $\sigma$를 찾으면 되고 genera하게 표현한다면 미분해서 0이되는 $\theta$를 찾으면 되는 것이다.
$$ \frac{\partial L(\theta|x)}{\partial \theta} = \frac{\partial logP(x|\theta)}{\partial \theta} = \sum_{k=1}^{n}\frac{\partial }{\partial \theta}logP(x|\theta) $$
'데이터사이언스-기초수학 > 통계학' 카테고리의 다른 글
[확률] 특정 확률 분포를 따르는 난수 생성기는 어떻게 만들어질까 (0) | 2023.02.02 |
---|