Generative Model 우리가 만약 강아지 사진이 있다면 강아지 사진의 분산 p(x)를 예측한다 Generation: (training set에 없는)강아지와 같은 이미지를 여러개를 생성할 수 있다 (sampling) Density Estimation: p(x) 어떤 이미지가 들어왔을 때 강아지같은지, 고양이같은지, 강아지가 아닌것같은지 구분해낸다 (anomaly detection - 이상행동감지) 이러한 모델을 explicit model이라한다. explicit model: 어떤 값이 주어졌을 때 확률값을 얻어낼 수 있는 모델 implicit model: 단순히 generation만 할 수 있는모델 Unsupervised representation learning: 귀가 있는지 등의 특성이있다...
Transformer Sequential model의 문제점이 있다 trimmed sequence: 문장의 길이는 항상 달라질 수 있다 (뒤에 몇개가 없거나) omitted sequence: 중간에 몇개가 없을수도있고, 어순이 몇개 없을수도있다. permuted sequence: 중간에 밀려서 순서가 바뀔 수도 있다. transformer는 재귀적이지 않다 Attention이라는 구조를 활용함 입력 seq와 출력seq의 수가 다를 수 있고 입력 도메인과 출력 도메인도 다를 수 있다. Transformer에서 중요한 세가지 n개의 단어가 어떻게 한번에 인코더에서 처리가 되는지 디코더와 인코더 사이에 어떤정보를 주고받는지 디코더가 어떻게 generation 할 수 있는지 encoder는 self attent..
Sequential Model 몇개의 입력이(이미지, 단어)가 들어오더라도 작동해야함 입력이 몇개 들어왔을 때 다음값을 예측해본다 \begin{equation} p\left(x_{t} \mid x_{t-1}, \ldots, x_{t-\tau}\right) \end{equation} Markov Model (first-order auto regressive model) 위의 문제를 가장 간단하게 해결하는 모델 \begin{equation} p\left(x_{1}, \ldots, x_{T}\right)=p\left(x_{T} \mid x_{T-1}\right) p\left(x_{T-1} \mid x_{T-2}\right) \cdots p\left(x_{2} \mid x_{1}\right) p\left(x_{..
Semantic Segmentation 어떤 이미지가 있을 때 이 이미지를 pixel마다 분류한다 Fully Convolutional Network Fully Convolutional Network로 이미지의 heatmap을 얻을 수 있는 가능성이 생김 Deconvolution (conv transpose) 100 X 100 이미지가 여러개의 Layer를 거쳤기 대문에 10X10으로 줄었기 때문에 이를 다시 펼쳐주는 기술 Conv를 역연산한다. 하지만 엄밀히 말하면 역 연산은 불가능하다. parameter count와 network 입력과 출력은 똑같다. fully connect한 결과로 Deconv한다. Detection 바운딩박스로 영역에 어떤 객체가 있는지를 카테고리해준다. R-CNN 이미지안에서 ..
ILSVRC(ImageNet Large Scale Visual Recognition Challenge) ILSVRC는 이미지 인식(image recognition) 경진대회이다. 여기서 우승한 알고리즘을 몇개 소개해본다. Alex Net 2개의 GPU Relu Local Response Normalization, Overlapping pooling Data augmentation Dropout VGG Net 3*3 Filter만 사용 3*3 filter만 사용한 이유는 같은 receptive field를 얻는 관점에서 3*3을 2개사용하는게 5*5 1개 사용하는것보다 파라미터 수가 적게 사용되기 때문이다. 이런 이유때문에 3*3 혹은 5*5 필터를 주로사용한다. Dropout VGG16, VGG19가 존..
Convolution I라는 이미지와 K라는 필터를사용해서 O라는 Output dimension을 만들어낸다. RGB 이미지를 예시로 들면 Image는 32*32*3 Filter로 5*5*3의 사이즈가 4개가 있다 결과는 28*28*4가 나온다 Parameter count 한개의 conv parameter수는 conv size * prev_vector filter수 * next_vector filter수 가된다. 모델의 성능을 높이기 위해서는 파라미터수를 줄이는게 좋다 Dens Layer에서는 파라미터수가 많이 필요하다. 아래와 같은 2개의 conv가 있다고 한다면 파라미터수는 5*5*3*4 + 5*5*4*10 = 300,000이 된다. 2번예시 Stride 커널의 스텝을 의미함 (default=1) P..
Optimization important concepts in optimization - Generalization 일반화 성능을 높인다. generalization performance가 좋다는 말은 Trainerror와 Testerror의 차이가 작다는 말이다. - Overfitting and Underfitting Overfitting: 트레이닝 데이터에만 잘 맞고 테스트 데이터에대해 잘 동작하지 않음. Underfitting: 네트워크가 너무 간단하거나 학습을 제대로 하지 못해서 트레이닝도 잘 맞추지못함 - Cross Validation k-fold validation 이라고도 함 train data를 k개로 나누어서 k-1개로 train하고 나머지 1개로 validation을 함 이때 test ..
MLP 여러개의 층으로 쌓으면 단순 행렬곱 연산이지만, 맵핑이 표현할 수 있는 표현력을 극대화하기위해 선형결합만을 n번 반복하는게 아니라 한번 선형결합이 반복될 때마다 activation function을 사용해서 non-linear transform을 거치고 다시 선형변환하고 non-linear transform을거친다. 이 반복을 m번 반복해서 더 표현력이 뛰어난 모델을 만든다. W와 b의 개선방법 위와 같은 데이터가 존재할 때, loss function을 w로 편미분 한 값을 현재 w에 적절한값(스텝사이즈, lr)을 곱해서 빼준다. bias도 마찬가지로 b로 편미분한 값을 현재 b에 lr을 곱해서 빼준다. setpsize는 에타 라는 기호를사용 *에타(ETA) : Η η