반응형
모수
- 통계적 모델링은 적절한 가정 위에서 확률분포를 추정(inference)하는 것이 목표이며 기계학습과 통계학이 공통적으로 추구하는 목표
- 그러나 유안한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아낸다는 것은 불가능하므로, 근사적으로 확률 분포를 추정할 수 밖에없음
- 예측모형의 목적은 분포를 정확하게 맞추는 것보다는 데이터와 추정방법의 불확실성을 고려해서 위험을 최소화하는 것
- 데이터가 특정 확률분포를 따른다고 선험적으로(a priori) 가정한 후 그 분포를 결정하는 모수(parameter)를 추정하는 방법을 모수적(par 방법론이라고함
- 정규분포의 확률분포를 모델링한다면 정규분포의 모수로는 평균,분산이 있음, 평균과 분산을 추정하는 방법을 통해서 데이터를 학습하는 방법을 모수적 방법이라함
- 특정 확률분포를 가정하지 않고 데이터에 따라서 모델의 구조와 모수의 개수가 유연하게 바뀌면 비 모수방법론이라고함
- 많은 딥러닝 학습법은 비 모수 방법론임
- 비모수 방법론도 모수를 사용
- 확률분포를 가정하는 방법
- 기계적으로 확률분포를 가정하면 안됨, 데이터를 생성하는 원리를 먼저 고려하는 것이 원칙
- 히스토그램을 통해 모양을 관찰
- 데이터가 2개의 값(0또는 1)만 가지는 경우 -> 베르누이분포
- 데이터가 n개의 이산적인 값을 가지는 경우 -> 카테고리분포
- 데이터가 [0,1]이상의 값을 가지는 경우 -> 베타분포
- 데이터가 0이상의 값을 가지는경우 -> 감마분포, 로그정규분포 등
- 데이터가 R전체에서 값을 가지는 경우 -> 정규분포, 라플라스분포 등
- 모수를 추정한 후에 통계적인 검정을 해야함
- 통계량의 확률분포를 표집분포(sampling distribution)라고 부르고 정규분포를 따른다
- 특히 표본평균의 표집분포는 N이 커질수록 정규분포를 따름
- 원래 확률분포는 이항분포이고 이항분포의 표본분포는 아무리 데이터를 많이모아도 정규분포가 될 수 없음
- 하지만 이항분포에서 추출한 통계량(표본평균의 확률분포)는 정규분포로 가고 이를 중심극한정리라고함
최대가능도 추정법
- 표본평균이나 표본분산은 중요한 통계량이지만 확률분포마다 사용하는 모수가 다르므로 적절한 통계량이 달라짐
- 이론적으로 가장 가능성이 높은 모수를 추정하는 방법 중 하나는 최다대가능도 추정법 (maximum likelihood estimation,MLE)
- 데이터 집합 X가 독립적으로 추출되었을 경우 로그가능도를 최적화함
(이미지출처: boostcourse ai precourse) - log likelihood를 사용하는 이유
- 연산의 오차 범위내에서 계산할 수 있음 -> 최적화 관점에서 중요함
- 대게의 손실함수의 경우 경사하강법을 사용하므로 음의 로그가능도를 최적화함
딥러닝에서의 최대가능도 추정법
- 원핫벡터로 표현된 정답레이블을 관찰데이터로 이용해 확률분포인 소프트맥스 벡터의 로그가능도를 최적화 할 수 있음
확률분포의 거리
- 기계학습에서 사용되는 손실함수들은 모델이 학습하는 확률분포와 데이터에서 관찰되는 확률분포의 거리를 통해 유도됨
- 데이터 공간에 두개의 확률분포사이의 거리를 구하는 함수
- 총변동 거리(Total Variation Distance, TV)
- 쿨백 라이블러발산(KL Divergence)을 최소화
- 바슈타인 거리(Wasserstein Distance)
반응형
'부스트캠프 AI Tech 2기 > Precourse' 카테고리의 다른 글
Tensor Manipulation 1 (0) | 2021.07.28 |
---|---|
파이썬 시각화 툴 (4) | 2021.07.27 |
확률론 맛보기 (0) | 2021.07.26 |
딥러닝 학습방법 (0) | 2021.07.25 |
Pandas (2) (0) | 2021.07.25 |