전체 글

현재 진행하는 개발 과정을 자주 기록하는 곳
부스트캠프 AI Tech 2기/2기 CV P-Stage-Objectdetection

MMDetection & Detectron2

# 모듈 import from mmcv import Config from mmdet.datasets import build_dataset from mmdet.models import build_detector from mmdet.apis import train_detector from mmdet.datasets import (build_dataloader, build_dataset, replace_ImageToTensor) classes = ("General trash", "Paper", "Paper pack", "Metal", "Glass", "Plastic", "Styrofoam", "Plastic bag", "Battery", "Clothing") # config file 들고오기 cfg = Con..

부스트캠프 AI Tech 2기/2기 CV P-Stage-Objectdetection

2-Stage Detectors

1 접근전략 1-1 Background 객체가 있을법한 위치를 특정짓고 객체가 어떤 객체인지를 예측하는 두가지 단계를 진행하는 2Stage Detectors를 배워보자 2 R-CNN 2-1 Overview 후보영역을 추출하는 방법 1) sliding window - sliding window방식은 무수히 많은 영역이 추출되고 거의 다 배경으로써 의미가 없는 영역이기때문에 RCNN에서는 사용되지 않음 2) selective Search - 이미지에 존재하는 특성(shape)들을 추출해서 영역을 만들고 무수히 많이 만들어진 영역들을 통합하면서 줄여나간다 2-2 Pipeline 1) 입력이미지 받기 2) Selective Search를 통해 2000개의 ROI(Regions of Interest)를 추출 3)..

부스트캠프 AI Tech 2기/2기 CV P-Stage-Objectdetection

Object Detection Overview

Task 1) Classification - 한개의 이미지에 한개의 카테고리가 설정됨 2) Objectdetection - 한개의 이미지에 정해져있지 않은 수의 카테고리가 설정됨 3) Semantic Segmentation - px별로 classification을 진행하는데 같은 클래스의 경우에는 구분하지 않는다 4) Instance Segementation - Semantic Segmentation에 Object detection이 추가됨, 같은 클래스여도 구분함 RealWorld ex_ 자율주행, OCR, Wheat구분, X-ray에서 질병 검사, CCTV 사람검출 평가방법 1) 성능 1-1 Map(Mean Average Precision) - 각 클래스에대한 AP의 평균 MAP를 이해하기위해 알아야..

부스트캠프 AI Tech 2기/2기 CV U-Stage

3D understanding

1. Seeing the world in 3D perspective 1-1 Why is 3D important? - 우리가 3D세상에 살고있기 때문이다. - AR/VR, 3D printing, mediacl application, 단백질, 뉴런, 우리의 몸속 세포 등 1-2 The way we observe 3D - 3D물체를 2D로 잘 그리려고 노력해왔음 - 사진은 3D를 2D로 projection한다. Triangulation: 2D이미지가 2개있으면 3D로 복원이 가능하다. 이때 3D 지점을 3D pioint라고한다. 1-3 3D data representation 3d 데이터가 어떻게 저장되는지 1. multi-view image: 여러각도에서 2D사진을 촬영하여 저장 2. volumetric(v..

부스트캠프 AI Tech 2기/2기 CV U-Stage

Image Captioning

Image captioning은 이미지를 입력하여, 이미지를 가장 잘 설명하는 문장을 출력하는 task입니다. Encoder 부분 - pretrained된 모델을 불러와서 poolling과 linear를 제거하여 사용 Decoder 부분 - 스타트토큰이 디코더에 들어가고 - 이전에 출력된 정보와 attention정보(어디를 봐야하는지)를 input으로 넣어서 사용 - RNN은 굉장히 많은 word class를 가진 classification이다 이런 classification을 사용하면 'a'라는 값보다 더 나은 값이여도 이미 앞단계에서 버렸기때문에 아쉬운 상황이 발생한다 그럴 때 사용하는게 Beam search 기술이다 Bean Search는 top 1이아닌 top k개를 골라서 사용한다. 처음 3개의..

부스트캠프 AI Tech 2기/2기 CV U-Stage

Multi Modal Learning

한타입의 데이터가 아니라 다른 특성을 가진 데이터 타입들을 같이 활용하는 학습법 ex) 텍스트, 사운드같은 데이터를 함께 사용 서로 다른 데이터타입, 자료구조를 사용 1. Overview of multi-modal learning - unimodal: 단일 도메인을 사용 - multimodal: 두개이상의 도메인을 사용 1) Challenge - Different representations between modalities - 오디오는 waveform - image는 3d array - text는 word의 임베딩벡터 2) Challenge - 서로다른 modality에서 오는 정보의 양의 unbalance하고 feature space도 unbalance하다 3) Challenge - training이..

개발

pytorch one hot encoding

pytorch에는 onehot encoder를 도와주는 scatter라는 함수가있다. t = torch.randint(0,9,(5,)) print(t) #y = torch.zeros((batch_size, classes)) y = torch.zeros((5,10)) y[range(len(t)), t] = 1 print(y) ----->>> tensor([6, 1, 4, 6, 8]) tensor([[0., 0., 0., 0., 0., 0., 1., 0., 0., 0.], [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.], [0., 0...

부스트캠프 AI Tech 2기/2기 CV U-Stage

Conditional GAN

기존의 Generative Model은 랜덤하게 샘플링해서 생성 할수는 있었지만, 조작할 수는 없었다. 생성이 더 유용하게 쓰이려면 유저의 의도를 반영할 수 있어야 하는데 이런 방식을 Conditional Gan이라한다. 1. Conditional Generative Model 1-1 CGAN의 응용 사례 - vision task외에도 low quality의 audio를 high quality의 audio로 변환해주는 GAN - 중국어를 영어로 번역해주는 GAN - Title과 Subtitle만 주고 Article을 만들어내는 GAN GAN 1-2 CGAN - GAN과 거의 유사하지만 c라는 input이 추가됨 (입력이 달라짐) - Image-to-Image translation을 통해 Style tra..

모플로
모던플로우