1. 강의 소개 1.1 과목 소개 1. 데이터 제작의 중요성 I : Software 1.0 vs Software 2.0 2. 데이터 제작의 중요성 II: Lifecycle of an AI Project 3. OCR 소개 4. Text Detection 소개1: Baseline 논문 소개 5. 데이터 소개 6. Annotation Guide 7. 성능 평가 방식 8. Annotation Tool 소개 9. Text Detection 소개2 : 최신 논문 소개 10. Bag of tricks : 모델 학습 시 시도할 만한 팁들 1.2 대회 소개 - 모델은 변경하지 않고 데이터만 변형하여 좋은 성능을 내본다 2. Software 1.0 vs Software 2.0 2.1 Software 1.0 1) 문제정의 ..
지난 Object Detection에서는 mmdetection이라는 프레임 워크를 사용했는데 결과는 좋았지만 과정이 아쉬웠다. 단순히 mmdetection에 구현되어있는 모델들, loss들, transformer들을 사용하면서 좋은 조합들을 고려해보는일이였다. 한가지 실험을 할때에도 엄청 많은 시간이 필요하다. 이런 문제 때문에 대회가 한편으로는 아쉬웠다. 그래서 이번에는 https://github.com/victoresque/pytorch-template GitHub - victoresque/pytorch-template: PyTorch deep learning projects made easy. PyTorch deep learning projects made easy. Contribute to vic..
1.baseline이후에 실험 해봐야할 사항들 II 1.1Ensemble 1) k-fold 앙상블 2) epoch 앙상블 ( 성능이 괜찮은 epoch의 체크포인트들을 로드하여 모델을 앙상블 ) 3) SWA (stochastic Weight Averaging) - 각 step 마다 weight를 업데이트 시키는 SGD와 달리 일정 주기마다 weight를 평균내는 방법 4) Seed 앙상블 - 모든 요소들은 같게하고 Seed만 바꿔서 학습을 여러번하여 ensemble 5) Resize 앙상블 - Input 이미지의 Size를 다르게 학습하여 ensemble 6) TTA (test time augmentation) - Test set으로 모델의 테스트 할 때, augmentation을 수행한다음 수행한 결과를..
1. EfficientUnet baseline 1.1 model불러오기 1) Segmentation Models라는 Library를 사용 - 많은 형태의 Encoder, Decoder Network를 제공 1.2 학습시키기 사용방법 - encoder name에 따라 encoder weights를 사용하지 못하는 것들도있다. 2. baseline 이후에 실험 해봐야할 사항들 2.1 주의해야할 사항들 1) 디버깅모드 - 샘플링을 통해서 데이터셋의 일부분만 추출하여 실험 - epoch를 1~2정도 설정하여 loss가 감소하는지 확인 2) 시드 고정 - torch 외 numpy, os 관련 시드 고정 - validation 검증셋의 시드 고정 3) 실험 기록 - Network 종류, Augmentation 방법..
1. U-Net 1.1 U-Net Intro Unet은 의료계열에서의 문제 상황을 해결하기 위해 나왔지만 구조가 좋아서 다방면에서 사용됨 1) 의료계열에서의 문제점 - cell segmentation의 경우 같은 클래스가 인접해있는 셀에 구분이 잘 되지 않을 수 있음 - 개인정보 등으로인해 데이터가부족함 1.2 U-Net Architecture(구조) 1) Contracting Path: 이미지 추출 • (3x3convolutionNetwork+BN+ReLU)X2 • Nozero-padding으로 patch-size감소 • 2x2Maxpooling(stride=2) • FeatureMap의 크기가 절반으로 감소 • Maxpooling이후 채널 수 2배 증가 2) ExpandingPath:localizat..
1.ReceptiveField를 확장시킨 models 1.1DeepLabv2 DilatedNet에서 영감을받아 앞부분 encoder는 같지만 decoder부분에서 4개의 가지를 만들어 sum을 사용해 변화를줌 rate가 큰 부분은 큰 오브젝트를 잘 포착해 내기위해 사용 FC6,7,8부분을 해당 논문에서 ASPP라고 부름 각 Conv block마다 실행해주는 것들이 다르지만 공통적으로 size를 맞춰준다 ex) conv3_block conv3_block은 4개의 sub block으로 구성되어 있고, 같은 conv3_block의 sub block 4개도 다르게 구성되어있는 block이 존재한다 1.2PSPNet PSPNet은 다음 세가지 문제점을 제기하며 등장했다. 1) MismatchedRelationsh..
1. 대표적인 딥러닝을 이용한 세그멘테이션 FCN 1.1 Abstract 1) VGG 네트워크 백본을 사용 (Backbone : feature extracting network) 2) VGG 네트워크의 FC Layer (nn.Linear)를 Convolution 으로 대체 3) Transposed Convolution을 이용해서 Pixel Wise prediction을 수행 1.2 Fully Connected Layer vs Convolution Layer 1) 위치정보 FC Layer는 각 픽셀의 위치정보를 해침 Conv Layer는 위치정보를 해치지 않은채로 특징 추출 이처럼 위치 정보가 변하지 않는것을 translation invariance라고한다. 2) 이미지 사이즈 nn.Linear는 heig..
Recycle Trash 대회에 대한 Overview 1. COCO Dataset 1.1 COCO Format - 모든 이미지를 뭉쳐서 3개의 batch로 나눴고, train valid test에 대한 구분은 json file로 구분되어져있다. - 해당 영역이 어떤 class를 나타내는지 알려주기 때문에 channel이 필요가없다 1.2 DataLoader 1) data_dir: 데이터 셋 경로 2) mode - train에 사용될지 test에 사용될지 구분 (mode="train", mode="test") - train일 경우 image_infos도 같이 return 3) ㅇtransform - image size 조절 및 data format 변환 등의 전처리 작업 Train 모드 코드 설명 imag..