Optimization important concepts in optimization - Generalization 일반화 성능을 높인다. generalization performance가 좋다는 말은 Trainerror와 Testerror의 차이가 작다는 말이다. - Overfitting and Underfitting Overfitting: 트레이닝 데이터에만 잘 맞고 테스트 데이터에대해 잘 동작하지 않음. Underfitting: 네트워크가 너무 간단하거나 학습을 제대로 하지 못해서 트레이닝도 잘 맞추지못함 - Cross Validation k-fold validation 이라고도 함 train data를 k개로 나누어서 k-1개로 train하고 나머지 1개로 validation을 함 이때 test ..
선형회귀모델 \begin{equation} f(x)=wX+B \end{equation} $$ f'(x) = \lim_{x \rightarrow 0} \frac{f(x+h)-f(x)}{h} $$ Gradient Descent(경사하강법) 함수 값이 낮아지는 방향으로 독립 변수(W,B) 값을 변형시켜가면서 최종적으로는 최소 함수 값을 갖도록 하는 독립 변수 값을 찾는 방법이다. 함수의 최소, 최대값을 찾기위해 사용하는 방법으로 미분 계수가 0이 되는 지점을 찾는다. 하지만 함수의 형태가 복잡해서 정확히 0이되는 지점을 찾기는 불가능에 가까워서 0에 가까운 epsilon값을 사용 아래와 같이 w와 b를 개선해서 error가 최적의 w와 b를 구할 수 있다 w와 b에 대해서 각각 편미분을하고 학습 데이터의 개수..
미분(differentiation) 변수의 움직임에 따른 함수 값의 변화를 측정하는 도구 최적화에서 제일 많이 사용하는 기법 파이썬의 sympy를 사용하면 미분을 계산 가능 import sympy as sym sym.diff(sym.poly(x**2 + 2*x +3), x) -> 2x + 2 함수값을 증가시키고 싶다면 미분값을 더함 함수값을 감소시키고 싶다면 미분값을 뺌 경사 상승법(gradient ascent): 미분값을 더하면서 함수의 극대값을 구할 때 경사 하강법(gradient descent): 미분값을 빼면서 함수의 극소값을 구할 때 극 값에 도달하게 되면 움직임이 멈춤 편미분: 벡터가 입력인 다변수 함수의 경우 사용되는 미분방법 그레디언트 벡터: d차원 벡터를 입력으로 갖는 함수는 편미분을 d..