보안세상

Maximum Likelihood Estimation(MLE)와 Maximum A Posteriori Estimation(MAP)의 차이 및 예시 본문

인공지능

Maximum Likelihood Estimation(MLE)와 Maximum A Posteriori Estimation(MAP)의 차이 및 예시

똔민 2023. 3. 23. 09:39
반응형

최대 가능도 추정 (MLE):
MLE은 주어진 데이터를 가장 잘 설명하는 파라미터를 찾는 추정 방법입니다. 이 방법은 관측된 데이터가 주어진 모델과 파라미터에 기반하여 최대한 가능성이 높은 값을 가질 때, 해당 모델과 파라미터를 선택하는 것입니다. MLE는 주어진 데이터만 고려하며, 파라미터의 사전 확률 분포는 고려하지 않습니다.

MLE의 과정:
가능도 함수를 정의합니다. 가능도 함수는 관측된 데이터가 주어졌을 때, 모델 파라미터의 확률을 나타냅니다.
가능도 함수를 최대화하는 파라미터 값을 찾습니다.


최대 사후 확률 추정 (MAP):
MAP는 MLE와 유사하지만, 파라미터에 대한 사전 확률 분포를 고려합니다. 이 방법은 베이즈 정리를 사용하여 사전 정보와 관측된 데이터를 결합하여 파라미터를 추정합니다. MAP는 주어진 데이터와 사전 확률 분포를 모두 고려하여 최적의 파라미터를 찾습니다.

MAP의 과정:
사전 확률 분포를 정의합니다. 이는 모델 파라미터에 대한 믿음을 나타냅니다.
관측된 데이터를 고려하여 사후 확률 분포를 계산합니다. 이는 베이즈 정리를 사용하여 가능도 함수와 사전 확률 분포를 결합한 것입니다.
사후 확률 분포를 최대화하는 파라미터 값을 찾습니다.

MLE과 MAP의 차이점:
MLE는 데이터만을 고려하여 파라미터를 추정하는 반면, MAP는 사전 확률 분포를 함께 고려합니다.
MLE는 데이터가 충분할 때 잘 작동하지만, 데이터가 부족한 경우 과적합(overfitting) 문제가 발생할 수 있습니다. 반면, MAP는 사전 확률 분포를 통해 정규화(regularization) 효과를 얻어 과적합 문제를 완화할 수 있습니다.
MLE는 사전 확률 분포에 대한 정보가 없을 때 사용하기 적합한 방법입니다. 사전 정보는 모델 파라미터에 대한 추가적인 정보를 제공하여 추정 과정에 도움이 됩니다.

또한, MLE와 MAP는 특정 상황에서 동일한 결과를 도출할 수 있습니다. 사전 확률 분포가 균등 분포일 경우에는 MAP 추정이 MLE 추정과 같아집니다. 이 경우, 사전 확률 분포가 파라미터 추정에 영향을 미치지 않으며, MLE와 MAP는 동일한 결과를 제공합니다.

요약하자면, MLE와 MAP는 모두 데이터를 바탕으로 모델 파라미터를 추정하는 방법이지만, 그 방식에는 차이가 있습니다. MLE는 데이터만을 고려하여 파라미터를 추정하는 반면, MAP는 데이터와 함께 사전 확률 분포를 고려합니다. 따라서, MLE는 사전 정보가 없을 때 사용하기 적합한 방법이며, MAP는 사전 정보가 있을 때 사용하기 적합한 방법입니다.

 


흰색 털을 가진 고양이와 강아지를 구분하여 예를 들어보면.

데이터셋에는 흰색 털의 강아지와 고양이가 각각 100마리씩 있고, 특성을 통해 두 동물을 구분할 수 있다고 가정합시다. 특성은 털의 길이, 털의 곱슬거림 정도 등이 될 수 있습니다. 이 문제에서는 로지스틱 회귀 모델을 사용하여 동물을 분류할 것입니다. 로지스틱 회귀의 목표는 주어진 특성에 기반하여 동물이 강아지인지 고양이인지를 예측하는 확률을 계산하는 것입니다.

최대 가능도 추정 (MLE):
MLE를 사용하여 로지스틱 회귀 모델의 파라미터를 추정하려면, 가능도 함수를 최대화해야 합니다. 이 경우 가능도 함수는 모든 관측값들의 곱으로 주어집니다.
L(θ) = ∏[P(y_i | x_i, θ)]

여기서 θ는 모델의 파라미터이고, x_i는 특성, y_i는 레이블(강아지 또는 고양이)입니다. 가능도 함수를 최대화하는 θ 값을 찾으면 로지스틱 회귀 모델을 학습할 수 있습니다.

최대 사후 확률 추정 (MAP):
MAP를 사용하여 로지스틱 회귀 모델의 파라미터를 추정하려면, 사전 확률 분포를 고려해야 합니다. 사전 확률 분포는 주어진 문제에 대한 도메인 지식 또는 전문가의 의견을 반영할 수 있습니다.
사후 확률 분포를 최대화하는 θ 값을 찾으면, 로지스틱 회귀 모델을 학습할 수 있습니다.

P(θ | data) ∝ L(θ) * P(θ)

여기서 P(θ)는 사전 확률 분포입니다. 일반적으로 로지스틱 회귀 모델의 파라미터에 가우시안 분포를 사용하여 사전 확률 분포를 정의합니다.

이 예제에서 MLE는 털 특성만을 기반으로 모델 파라미터를 추정하는 반면, MAP는 털 특성과 사전 확률 분포를 함께 고려하여 모델 파라미터를 추정합니다. 이렇게 함으로써 MAP는 사전 정보를 반영하고, 과적합을 완화하는 데 도움이 됩니다.

예를 들어, 사전 정보로부터 특정 털 특성이 고양이와 강아지를 구분하는 데 더 중요하다고 판단될 경우, 사전 확률 분포를 이를 반영하도록 설정할 수 있습니다. 그 결과, MAP 추정에서는 이러한 정보를 통해 모델이 더 정확하게 동물을 구분할 수 있습니다.

반면, MLE 추정에서는 이러한 사전 정보가 고려되지 않아, 데이터에만 의존하여 파라미터를 추정합니다. 데이터가 충분하고 특성이 잘 구분되는 경우에는 MLE가 잘 작동하지만, 데이터가 부족하거나 노이즈가 많은 경우 과적합 문제가 발생할 수 있습니다.

요약하면, 흰색 털을 가진 고양이와 강아지를 구분하는 문제에서 MLE와 MAP는 모두 로지스틱 회귀 모델의 파라미터를 추정하는 방법입니다. MLE는 데이터만을 기반으로 모델 파라미터를 추정하는 반면, MAP는 데이터와 함께 사전 확률 분포를 고려하여 모델 파라미터를 추정합니다. 이로 인해 MAP 추정치는 과적합을 완화하고, 사전 정보를 반영할 수 있는 장점이 있습니다.

반응형
Comments