확률론 맛보기 기계학습에서 사용되는 loss function(cost function)은 데이터공간을 통계적으로 해석해서 유도하게됨 L2 norm은 회귀분석에서 예측오차의 분산을 가장 최소화하는 방향으로 학습한다. Cross-entropy는 분류문제에서 모델예측의 불확실성을 최소화하는 방향으로 학습한다. 원래 데이터의 확률분포가 이산형이더라도 결합분포를 연속형으로 할 수 있음확률변수 종류 확률변수는 분포 D에 의해 구분된다. 1) 이산형 확률변수 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해서 모델링함(질량함수) 연속하지 않는 값을 이용 \begin{equation} E(X)=\sum x f(x) \end{equation} 2) 연속형 확률변수 데이터 공간에 정의된 확률변수의 밀도위에서..
Maximum Likelyhood Estimation(MLE) 최대 가능도(우도) 추정 압정을 땅에 던졌을때 납작한부분이 바닥으로 떨어지는 (class1) 위로 떨어지는 (class2)가 존재 베르누이 분포 (매 시행마다 오직 두 가지의 가능한 결과만 일어난다고 할 때, 이러한 실험을 1회 시행하여 일어난 두 가지 결과에 의해 그 값이 각각 0과 1로 결정되는 확률변수 X에 대해서 를 만족하는 확률변수 X가 따르는 확률분포를 의미하며, 이항 분포의 특수한 사례에 속한다.) n = 100 k = 27 (class1의 횟수) -> n,k는 observation 압정외 확률분포를 결정하는 쎄타를 구해야함 likelyhood가 맥시멈값이 되는곳을 찾는다 Y값이 최대가 되는 지점을 찾아보니 쎄타는 0.27이된다 ..
Minibatch Gradient Descent 복잡한 머신러닝 모델을 학습하려면 엄청난 양의 데이터가 필요 대부분 데이터셋은 적어도 수십만개의 데이터를 제공 많은 양의 데이터를 한번에 학습시킬 수 없음 너무 느리거나 하드웨어적으로 불가능 일부분의 데이터만 갖고 학습하면됨! (이미지 출처: boostcourse ai tech pre course) 한번의 업데이트마다 계산할 코스트의 양은 줄어들고 업데이트의 주기가 빨라짐 모델이 코스트를 계산할 때 전체데이터를 쓰지 않기 때문에 모델이 가끔 잘못된 방향으로 학습할 수 있기 때문에 거칠게 줄어든다 (이미지 출처: boostcourse ai tech pre course) Pytorch Dataset import torch import torch.nn as nn..
Hypothesis 인공신경망을 나타냄 EX) Linear Regression W와 b라는 변수를 학습해서 주어진 데이터에 최적화함 (이미지출처: boostcourse ai tech pre course) Simpler Hypothesis Function 이번엔 Bias를 제거한 H(x) = Wx 로 실험해보자 아래와 같은 데이터가 존재할 때 Hour(x) Points(y) 1 1 2 2 3 3 (이미지출처: boostcourse ai tech pre course) CostFunction: 모델의 예측값이 실제값과 얼마나 다른지 나타냄, 좋은모델일수록 낮은값을 가짐 Linear Regression에서 사용되는 Costfunction은 MSE(Mean Squared Error)를 사용 CostFunction..
예제 공부시간에 따른 점수데이터가 아래와 같이 존재할 때 4시간 공부했을 경우 점수를 예측해보자 시간 점수 1 2 2 4 3 6 4 ??? Hypothesis(가설) y = Wx + b x_train = torch.FloatTensor([[1],[2],[3]]) y_train = torch.FloatTensor([[4],[5],[6]]) W = torch.zeros(1, requires_grad=True) b = torch.zeros(1, requires_grad=True) hypothesis = x_train * W + b weight와 bias를 0으로 초기화 항상 출력 0을 예측 requires_grad = True 학습할 것이라고 명시 Compute Loss MSE를 사용 (이미지출처: boost..