부스트캠프 AI Tech 2기/2기 CV 데이터제작

부스트캠프 AI Tech 2기/2기 CV 데이터제작

Annotation Tool 소개

1. 데이터의 중요성 1.1 데이터의 양과 질 1.2 양질의 데이터를 확보하려면? 2. CV 데이터 제작 서비스들 2.1 Labelme • MIT CSAIL (Computer Science Artificial Intelligence Laboratory) 에서 공개한 image data annotation 도구를 참고하여 만든 오픈소스 • polygon, circle, rectangle, line, point의 annotation 수행 가능 • 장점 • 설치하기가 용이하다. • python으로 작성되어있어, 추가적인 기능 추가가 가능하다. • 단점 • 공동작업이 불가능하다. (다수의 사용자가 사용할 수 없다.) • object, image에 대한 속성을 부여할 수 없다. 2.2 CVAT • Intel Op..

부스트캠프 AI Tech 2기/2기 CV 데이터제작

성능 평가 방식

1. 성능 평가 개요 1.1 성능 평가의 중요성 성능평가 == 새로운 (학습에서 사용되지 않은 ) 데이터가 들어왔을 때 얼마나 잘 동작하는가? 성능 평가시 데이터 분리방법 아래와 같은 문제가 있기 때문에 제대로된 평가를 해야한다 1.2 정량평가 & 정성평가 1) OCR에 대한 정량평가 2) OCR에 대한 정성평가 2. 글자 검출 모델 평가 방법 2.1 글자 검출 모델 평가 2.2 Glossary 1) IoU (Intersection of Union) 2) Area Recall / Area Precision 3) One-to-One | One-to-Many | Many-to-One Match 2.3 DetEval 2.4 IoU 오직 1:1매칭만 허용 one-to-one matching이 성립 and IoU..

부스트캠프 AI Tech 2기/2기 CV 데이터제작

Annotation Guide

1. 좋은 데이터셋의 선결조건, 가이드라인 1.1 가이드라인이란? 가이드 라인 : 좋은 데이터를 확보하기 위한 과정을 정리해 놓은 문서 좋은 데이터는 되도록 골고루(Raw Data) 모여 있고 일정하게(Ground Truth) 라벨링된 데이터 특이 경우를 발견하고 해당 샘플들을 확보하려고 노력해야 하며, 이를 포함한 라벨링 가이드를 만들어야 한다 - 데이터 구축의 목적 - 라벨링 대상 이미지 소개 - 기본적인 용어 정의 - BBOX, “전사”, “태그" 등등 - Annotation 규칙 - 작업불가 이미지 정의 - 작업불가 영역 (illegibility = True) 영역 정의 - BBOX 작업 방식 정의 - 최종 format * 보통 가이드라인이라고 할 때는 라벨링에 관한 얘기만 다룬다. 그래서, 가이..

부스트캠프 AI Tech 2기/2기 CV 데이터제작

데이터 소개

1. Data Collection 1.1 OCR 학습 및 평가 데이터는 어디에서 오나요? 2. Public Dataset 1) 서비스향 AI 모델 개발 시 한시라도 빨리 답을 가지고 있어야 하는 질문들 - 몇 장을 학습을 시키면 어느 정도 성능이 나오는가? - 어떤 경우가 일반적이고 어떤 경우가 희귀 케이스인가? - 현재 최신 모델의 한계는 무엇인가? -> 이런 질문들은 바로 말해주어야하는데 이를 해결하기 위해 공개되어 있는 데이터셋으로 공개되어 있는 최신 모델을 학습시켜 성능을 분석한다! 2) 검색 방법 - 대회 - Kaggle: OCR 관련 대회 존재 - RRC(Robust Reading Challenges): 2년마다 열리는 OCR 전문 대회 - 논문 - OCR 데이터셋 논문 - Arixv (ai ..

부스트캠프 AI Tech 2기/2기 CV 데이터제작

Text Detection 소개

1. Basics 1.1일반 객체 영역 검출 vs글자 영역 검출 - 일반 객체 검출: 클래스와 위치를 예측하는 문제 - 글자 검출: “Text”라는 단일 클래스 -> 위치만 예측하는 문제 1.2 글자 영역 표현법 1) 사각형 종류들 2) 다각형 (Polygon) Arbitrary-shaped text를 주로 다루는 최근의 벤치마크들에 적합 일반적으로 2N points를 이용하고, 상하 점들이 쌍을 이루도록 배치 (위의 두 점과 쌍이 되는 아래의 두 점을 잡으면 특정 글자 영역이 되도록) 2. Taxonomy 2.1Regression-basedvsSegmentation-based Regression방식과 Segmentation 방식이 있다 1) Regression-based SSD를 활용하여 Anchor ..

부스트캠프 AI Tech 2기/2기 CV 데이터제작

데이터 제작의 중요성 2

1. Lifecycle of an AI Project 1.1 AI Research VS AI Production AI 개발 업무의 상당 부분은 데이터 셋을 준비하는 작업을 필요로 한다 1.2 Production Process of AI Model 2. Data! Data! Data! 2.1 Data-related tasks 성능이 나오지 않으면 Data-Centric(데이터만 수정하여 모델 성능을 끌어올리기)을 하여 다시 학습한다 1) 모델 성능 달성에 있어서 데이터와 모델에 대한 비중은 어떨까요? 2) 그렇다면 사용 중인 모델의 성능 개선 시에는 데이터와 모델에 대한 비중이 어떻게 바뀔까요? - 출시 후에는 정확도에대한 요구사항이 많다. - 가능하면 모델구조를 건들지 않는게 효율적이다 왜냐하면 qps,..

부스트캠프 AI Tech 2기/2기 CV 데이터제작

데이터 제작의 중요성 I

1. 강의 소개 1.1 과목 소개 1. 데이터 제작의 중요성 I : Software 1.0 vs Software 2.0 2. 데이터 제작의 중요성 II: Lifecycle of an AI Project 3. OCR 소개 4. Text Detection 소개1: Baseline 논문 소개 5. 데이터 소개 6. Annotation Guide 7. 성능 평가 방식 8. Annotation Tool 소개 9. Text Detection 소개2 : 최신 논문 소개 10. Bag of tricks : 모델 학습 시 시도할 만한 팁들 1.2 대회 소개 - 모델은 변경하지 않고 데이터만 변형하여 좋은 성능을 내본다 2. Software 1.0 vs Software 2.0 2.1 Software 1.0 1) 문제정의 ..

모플로
'부스트캠프 AI Tech 2기/2기 CV 데이터제작' 카테고리의 글 목록