ILSVRC(ImageNet Large Scale Visual Recognition Challenge) ILSVRC는 이미지 인식(image recognition) 경진대회이다. 여기서 우승한 알고리즘을 몇개 소개해본다. Alex Net 2개의 GPU Relu Local Response Normalization, Overlapping pooling Data augmentation Dropout VGG Net 3*3 Filter만 사용 3*3 filter만 사용한 이유는 같은 receptive field를 얻는 관점에서 3*3을 2개사용하는게 5*5 1개 사용하는것보다 파라미터 수가 적게 사용되기 때문이다. 이런 이유때문에 3*3 혹은 5*5 필터를 주로사용한다. Dropout VGG16, VGG19가 존..
Convolution I라는 이미지와 K라는 필터를사용해서 O라는 Output dimension을 만들어낸다. RGB 이미지를 예시로 들면 Image는 32*32*3 Filter로 5*5*3의 사이즈가 4개가 있다 결과는 28*28*4가 나온다 Parameter count 한개의 conv parameter수는 conv size * prev_vector filter수 * next_vector filter수 가된다. 모델의 성능을 높이기 위해서는 파라미터수를 줄이는게 좋다 Dens Layer에서는 파라미터수가 많이 필요하다. 아래와 같은 2개의 conv가 있다고 한다면 파라미터수는 5*5*3*4 + 5*5*4*10 = 300,000이 된다. 2번예시 Stride 커널의 스텝을 의미함 (default=1) P..
Optimization important concepts in optimization - Generalization 일반화 성능을 높인다. generalization performance가 좋다는 말은 Trainerror와 Testerror의 차이가 작다는 말이다. - Overfitting and Underfitting Overfitting: 트레이닝 데이터에만 잘 맞고 테스트 데이터에대해 잘 동작하지 않음. Underfitting: 네트워크가 너무 간단하거나 학습을 제대로 하지 못해서 트레이닝도 잘 맞추지못함 - Cross Validation k-fold validation 이라고도 함 train data를 k개로 나누어서 k-1개로 train하고 나머지 1개로 validation을 함 이때 test ..
MLP 여러개의 층으로 쌓으면 단순 행렬곱 연산이지만, 맵핑이 표현할 수 있는 표현력을 극대화하기위해 선형결합만을 n번 반복하는게 아니라 한번 선형결합이 반복될 때마다 activation function을 사용해서 non-linear transform을 거치고 다시 선형변환하고 non-linear transform을거친다. 이 반복을 m번 반복해서 더 표현력이 뛰어난 모델을 만든다. W와 b의 개선방법 위와 같은 데이터가 존재할 때, loss function을 w로 편미분 한 값을 현재 w에 적절한값(스텝사이즈, lr)을 곱해서 빼준다. bias도 마찬가지로 b로 편미분한 값을 현재 b에 lr을 곱해서 빼준다. setpsize는 에타 라는 기호를사용 *에타(ETA) : Η η
좋은 Deeplearner의 기준 구현스킬: Pytorch, Tensorflow Math skills: 선형대수학, 확률과 통계 knowing a lot of recent papers: 논문 AI, 머신러닝, 딥러닝 Articicial Inteligence: 인간의 지능을 모방 Machine Learning: Data Driven Approach Deep Learning: Neural Network CV(computer vision)에서 풀고자 하는 문제 Classification: 이미지가 주어졌을 때 이 이미지가 어떤 라벨을 갖고있는지 Semantic Segmentation: 이미지의 픽셀별로 이픽셀이 어떤 class에 속하는지 Detection: 문제에 대한 bounding box를 그려줌 Pose..
likelihood (가능도, 우도) 이산 확률 분포에서는 확률 값이 가능도 이지만 연속 확률 분포에서는 확률 밀도 값이 가능도 이다. 우도는 딥러닝에서 주어진 데이터만으로 최적 모델 Θ(쎄타)를 찾아야한다. 입력값 X와 파라미터 Θ가 주어졌을때 정답 Y가 나타날 확률이다. 즉 지금 얻은 데이터가 이 분포로부터 나왔을 가능도를 말한다. 전체 표본집합의 결합확률밀도 함수를 likelihood function이라고 한다. \begin{equation} P(x \mid \theta)=\prod_{k=1}^{n} P\left(x_{k} \mid \theta\right) \end{equation} Projection을 계산하기 편하게 하위해 log를 취해준 log likelihood를 사용한다. \begin{eq..
선형회귀모델 \begin{equation} f(x)=wX+B \end{equation} $$ f'(x) = \lim_{x \rightarrow 0} \frac{f(x+h)-f(x)}{h} $$ Gradient Descent(경사하강법) 함수 값이 낮아지는 방향으로 독립 변수(W,B) 값을 변형시켜가면서 최종적으로는 최소 함수 값을 갖도록 하는 독립 변수 값을 찾는 방법이다. 함수의 최소, 최대값을 찾기위해 사용하는 방법으로 미분 계수가 0이 되는 지점을 찾는다. 하지만 함수의 형태가 복잡해서 정확히 0이되는 지점을 찾기는 불가능에 가까워서 0에 가까운 epsilon값을 사용 아래와 같이 w와 b를 개선해서 error가 최적의 w와 b를 구할 수 있다 w와 b에 대해서 각각 편미분을하고 학습 데이터의 개수..
원래는 매일 1일 1포스트를 하고싶었지만 수업을 따라가기가 너무 힘들어서...실패! 다음주부터는 1일 1포스팅 재도전! 개요 이 수업을 듣기전 Pre course를 전부 듣고 정리를 했다. U-stage에서 1일 1포스팅을 목표로 삼았지만 실패했다. 1주차의 시간은 비교적 자유로웠지만, 공부해야하는 양과 과제를 보면 자유가 아닌것같다. 슬기로운 부캠생활 부스트캠프에는 피어세션이라는 팀원들과 같이 소통하고 의견을 나누는 시간이 매일 존재한다. 5주동안 같이 공부할 팀원들을 처음 만나고, 인사를나눴다. 우리팀의 이름은 슬기로운 부캠생활로 정했다! 이제 1주차지만 벌써부터 도움을 많이 받았다. 나도 빨리 따라가서 도움이 되는 사람이 되고싶다. 다들 친절하시고 유쾌하신분들이여서 오프라인이였으면 정말 많이 친해질..