1. Model Serving 1.1 Serving Basic Serving - Production(Real World) 환경에 모델을 사용할 수 있도록 배포 - 머신러닝 모델을 개발하고, 현실 세계(앱, 웹)에서 사용할 수 있게 만드는 행위 - 서비스화라고 표현할 수도 있음 - 머신러닝 모델을 회사 서비스의 기능 중 하나로 활용 - 예 : 추천 시스템의 추천 알고리즘 - Input이 제공되면 모델이 예측 값(Output)을 반환 serving 방식 - online serving - batch serving - IoT, mobile 등 클라이언트에서 Edge Serving 2. Online Serving 2.1 Web Server Basic 2.2 API 2.3 Online Serving Basic On..
1. MLOps 개론 [문제정의] [EDA] [Feature Engineering] [Train] 1.1 모델 개발 프로세스(Research) - 고정된 데이터를 사용해 학습 1.2 모델 개발 프로세스(Production) - 모델의 결과값이 이상한 경우가 존재 => 원인 파악 필요 => Input 데이터가 이상한 경우가 존재(x값이 0~100 이내여야 하는데 Input으로 200이 들어오는 경우) => Research 할 땐 Outlier로 제외할 수 있지만, 실제 서비스에선 제외가 힘든 상황(별도 처리 필요) - 모델의 성능이 계속 변경 => 모델의 성능은 어떻게 확인할 수 있을까? => 예측 값과 실제 레이블을 알아야 함 => 정형(Tabular) 데이터에서는 정확히 알 수 있지만, 비정형 데이터(..
1. 데이터의 중요성 1.1 데이터의 양과 질 1.2 양질의 데이터를 확보하려면? 2. CV 데이터 제작 서비스들 2.1 Labelme • MIT CSAIL (Computer Science Artificial Intelligence Laboratory) 에서 공개한 image data annotation 도구를 참고하여 만든 오픈소스 • polygon, circle, rectangle, line, point의 annotation 수행 가능 • 장점 • 설치하기가 용이하다. • python으로 작성되어있어, 추가적인 기능 추가가 가능하다. • 단점 • 공동작업이 불가능하다. (다수의 사용자가 사용할 수 없다.) • object, image에 대한 속성을 부여할 수 없다. 2.2 CVAT • Intel Op..
1. 성능 평가 개요 1.1 성능 평가의 중요성 성능평가 == 새로운 (학습에서 사용되지 않은 ) 데이터가 들어왔을 때 얼마나 잘 동작하는가? 성능 평가시 데이터 분리방법 아래와 같은 문제가 있기 때문에 제대로된 평가를 해야한다 1.2 정량평가 & 정성평가 1) OCR에 대한 정량평가 2) OCR에 대한 정성평가 2. 글자 검출 모델 평가 방법 2.1 글자 검출 모델 평가 2.2 Glossary 1) IoU (Intersection of Union) 2) Area Recall / Area Precision 3) One-to-One | One-to-Many | Many-to-One Match 2.3 DetEval 2.4 IoU 오직 1:1매칭만 허용 one-to-one matching이 성립 and IoU..
1. 좋은 데이터셋의 선결조건, 가이드라인 1.1 가이드라인이란? 가이드 라인 : 좋은 데이터를 확보하기 위한 과정을 정리해 놓은 문서 좋은 데이터는 되도록 골고루(Raw Data) 모여 있고 일정하게(Ground Truth) 라벨링된 데이터 특이 경우를 발견하고 해당 샘플들을 확보하려고 노력해야 하며, 이를 포함한 라벨링 가이드를 만들어야 한다 - 데이터 구축의 목적 - 라벨링 대상 이미지 소개 - 기본적인 용어 정의 - BBOX, “전사”, “태그" 등등 - Annotation 규칙 - 작업불가 이미지 정의 - 작업불가 영역 (illegibility = True) 영역 정의 - BBOX 작업 방식 정의 - 최종 format * 보통 가이드라인이라고 할 때는 라벨링에 관한 얘기만 다룬다. 그래서, 가이..
1. Data Collection 1.1 OCR 학습 및 평가 데이터는 어디에서 오나요? 2. Public Dataset 1) 서비스향 AI 모델 개발 시 한시라도 빨리 답을 가지고 있어야 하는 질문들 - 몇 장을 학습을 시키면 어느 정도 성능이 나오는가? - 어떤 경우가 일반적이고 어떤 경우가 희귀 케이스인가? - 현재 최신 모델의 한계는 무엇인가? -> 이런 질문들은 바로 말해주어야하는데 이를 해결하기 위해 공개되어 있는 데이터셋으로 공개되어 있는 최신 모델을 학습시켜 성능을 분석한다! 2) 검색 방법 - 대회 - Kaggle: OCR 관련 대회 존재 - RRC(Robust Reading Challenges): 2년마다 열리는 OCR 전문 대회 - 논문 - OCR 데이터셋 논문 - Arixv (ai ..
1. Basics 1.1일반 객체 영역 검출 vs글자 영역 검출 - 일반 객체 검출: 클래스와 위치를 예측하는 문제 - 글자 검출: “Text”라는 단일 클래스 -> 위치만 예측하는 문제 1.2 글자 영역 표현법 1) 사각형 종류들 2) 다각형 (Polygon) Arbitrary-shaped text를 주로 다루는 최근의 벤치마크들에 적합 일반적으로 2N points를 이용하고, 상하 점들이 쌍을 이루도록 배치 (위의 두 점과 쌍이 되는 아래의 두 점을 잡으면 특정 글자 영역이 되도록) 2. Taxonomy 2.1Regression-basedvsSegmentation-based Regression방식과 Segmentation 방식이 있다 1) Regression-based SSD를 활용하여 Anchor ..
1. Lifecycle of an AI Project 1.1 AI Research VS AI Production AI 개발 업무의 상당 부분은 데이터 셋을 준비하는 작업을 필요로 한다 1.2 Production Process of AI Model 2. Data! Data! Data! 2.1 Data-related tasks 성능이 나오지 않으면 Data-Centric(데이터만 수정하여 모델 성능을 끌어올리기)을 하여 다시 학습한다 1) 모델 성능 달성에 있어서 데이터와 모델에 대한 비중은 어떨까요? 2) 그렇다면 사용 중인 모델의 성능 개선 시에는 데이터와 모델에 대한 비중이 어떻게 바뀔까요? - 출시 후에는 정확도에대한 요구사항이 많다. - 가능하면 모델구조를 건들지 않는게 효율적이다 왜냐하면 qps,..