boostcampaitech5/level2_objectdetection-cv-07

level2_objectdetection-cv-07 created by GitHub Classroom

Jupyter Notebook

재활용 품목 분류를 위한 Object Detection

Project Overview

프로젝트 목표

임의의 사진이 주어졌을 때, 쓰레기를 Detection 하는 모델 제작

기대 효과

바야흐로 대량 생산, 대량 소비의 시대. 우리는 많은 물건이 대량으로 생산되고, 소비되는 시대를 살고 있습니다. 하지만 이러한 문화는 '쓰레기 대란', '매립지 부족'과 같은 여러 사회 문제를 낳고 있습니다. 분리수거는 이러한 환경 부담을 줄일 수 있는 방법 중 하나입니다. 잘 분리배출 된 쓰레기는 자원으로서 가치를 인정받아 재활용되지만, 잘못 분리배출 되면 그대로 폐기물로 분류되어 매립 또는 소각되기 때문입니다. 따라서 우리는 사진에서 쓰레기를 Detection 하는 모델의 제작을 통해 이러한 문제점을 해결할 수 있습니다.

Dataset

쓰레기가 포함된 사진 및 annoations (10 class : General trash, Paper, Paper pack, Metal, Glass, Plastic, Styrofoam, Plastic bag, Battery, Clothing)
해상도 : 1024, 1024
총 이미지 수 : 9,754장(Train 이미지 수 : 4,883장)

Framework

MMDetection, Detectron2

협업 tools

Slack, Notion, Github, Wandb

GPU

V100(vram 32GB) 5개

평가기준

mAP50

Team Introduction

Members

고금강	김동우	박준일	임재규	최지욱

Github	Github	Github	Github	Github
twinkay@yonsei.ac.kr	dwkim8155@gmail.com	joonil2613@gmail.com	jaekyu.1998.bliz@gmail.com	guk9898@gmail.com

Members' Role

팀원	역할
고금강_T5011	- MMDetection 라이브러리 실험 - Swin Transformer Large 구현 - Data Augmentation Experiments - Label Correction
김동우_T5026	- MMDetection 라이브러리 실험(VFNet, FocalNet, UniverseNet) - BBox EDA - Pseudo Labeling 구현
박준일_T5094	- Detectron2 라이브러리 실험 - TridentNet 구현 - Label Correction - Model 선정
임재규_T5174	- MMDetection와 Detectron2 라이브러리 실험 - CutOut, CutMix, MixUp 등 Detectron2 데이터 증강 기법 구현 - 데이터셋과 모델 추론 결과 Bounding Boxes 시각화 구현 - 데이터셋 라벨 조사
최지욱_T5219	- MMDetection을 이용한 모델 실험(Deformable DETR, RetinaNet) + YoloV8 - Stratified Group K-fold - Weighted Boxes Fusion - Confidence score calibration

Procedure & Techniques

분류	내용
Data	Stratified Group K-fold - 하나의 이미지가 하나의 class에 할당되는 것이 아닌 여러 개의 object(class)를 포함 => object들의 class별 분포가 최대한 유사하도록 각각 5개의 Train/Valid set(8:2로 분할)을 구성 Augmentation - 각 모델에 기본적인 데이터 증강으로 Horizontal Flip과 Vertical Flip을 적용 - 그 외에도 Rotate, Sharpen, Emboss 등 다양한 augmentation 사용 - 다양한 augmentation을 적용할수록 더 높은 mAP 점수를 보임 Label Correction - train dataset의 Paper와 General Trash의 경계가 애매모호하다는 것을 확인 => 라벨링 기준을 정하여 Correction을 한 결과, mAP50 점수가 상승되었다. (0.5371->0.5420)
Model	Cascade-RCNN - Backbone : Swin-L - Neck : FPN - Head : Cascade-RCNN ATSS - Backbone : Swin-L - Neck : FPN - Head : ATSS + Dyhead Deformable DETR - Backbone : Swin-L - Neck : Channel Mapper - Head : Deformable DETR Head
HyperParameters	Cascade-RCNN - Batch Size : 32 - Class Loss : Cross Entropy - BoundingBox Loss : Smooth-L1 - Learning Rate : 0.0001 - Optimizer : AdamW - Epochs : 13 ATSS - Batch Size : 32 - Class Loss : Focal Loss - BoundingBox Loss : GioU Loss - Learning Rate : 0.00005 - Optimizer : AdamW - Epochs : 18 DETR - Batch Size : 32 - Class Loss : Focal Loss - BoundingBox Loss : L1-Loss - Learning Rate : 0.0002 - Optimizer : AdamW - Epochs : 21
Other Methods	Ensemble - Weighted Boxes Fusion - Confidence score calibration 적용 Pseudo Labeling - 주어진 Train dataset 뿐만 아니라 label이 없는 Test dataset까지 학습에 이용해서 모델 성능을 최대한 향상시키기 위함 - ATSS 1epoch 적용 (Public mAP : 0.7157 -> 0.7185)

Results

단일모델

Method	Backbone	mAP50	mAP75	mAP50(LB)
Faster RCNN	ResNet101	0.4845	0.313	0.4683
DetectoRS	ResNext101	0.514	0.385	0.4801
TridentNet	Trident + ResNet101	0.5341	0.4311	0.5428
Cascade RCNN	Swin-L	0.633	0.539	0.6257
Deformable DETR	Swin-L	0.621	0.533	0.6373
ATSS	Swin-L	0.689	0.596	0.6741

앙상블

Emsemble	Calibration	mAP50(LB)
ATSS (5Fold), Deformable DETR (5Fold), Swin-L + Cascade (5Fold)		0.7054
ATSS (5Fold), Deformable DETR (5Fold), Swin-L + Cascade (5Fold)	✔	0.7116
ATSS + Pseudo (5Fold), Deformable DETR (5Fold), Swin-L + Cascade (5Fold)	✔	0.7185

최종 과정 및 결과

최종 순위

🥈 Public LB : 2nd / 19
🥈 Private LB : 2nd / 19