z 'Computer Vision' 카테고리의 글 목록
본문 바로가기

Computer Vision

(15)
[Constrastive Learning] Momentum Contrast for Unsupervised Visual Representation Learning : MoCo v1 Constrastive Learning 이번에 처음으로 Constrastive Learning에 대해 공부하게 되었습니다. 이에 대해 천천히 복습할 겸 작성하겠습니다 :) Constrastive Learning의 동기 ImageNet처럼 방대한 데이터에 대해 학습시키다 보면, 비슷한 객체에 대한 결과의 값들을 확인했을 때 각 높은 확률 값을 가짐을 알 수 있습니다. 이게 무슨 뜻이냐면 단순한 물체, 가구 부터 동물까지 들어있는 방대한 데이터셋이 있다고 했을 때 말 사진이 들어갔을 때 얼룩말과 같은 비슷한 클래스에 대해서는 높은 확률 값을 지니고, 별로 관련 없는 대상인 의자, 책상 등에는 낮은 확률값을 갖게 됩니다. 사실 모델에 데이터를 넣을 때 class 정보는 semantic labeling이 아니라..
[코드 개인 공부] : Single Shot Multibox Detector (SSD) 개요 여러 블로그에서 SSD에 대한 설명은 충분히 나와있습니다만, 막상 코드에서 어떻게 돌아가는지를 파악할 때 어려움이 굉장히 많았어서 SSD가 실행 될 때 중요 부분 코드를 뜯어보고자 작성했습니다. (개인 공부 목적, Image Tracking 목적) SSD에서 여러번 prediction하는 layer를 포함하는 부분 등 깃허브의 코드를 봤을 때 자명하게 알 수 있는 부분들은 제외했습니다. github : https://github.com/amdegroot/ssd.pytorch SSD Module class SSD(nn.Module): def __init__(self, phase, size, base, extras, head, num_classes): super(SSD, self).__init__() ..
Vision Transformer의 이해와 Swin Transformer 목차 Introduction Attention Seq2Seq Attention Dot-Product Attention Attention All You Need Positional Encoding Multi=Head Attention Why Self-Attention? ViT Input Positional Encoding Transformer Encoder ViT Review Hybrid Architecture Fine Tuning and Higher Resolution Setup Swin Transformer Introduction Overall architecture Shifted Window based Self-Attention Reference Introduction 현재 자연어 처리 (NLP) 부..
[논문 리뷰] Deformable DETR : Deformable Transformers For End-To-End Object Detection Abstract 기존 DETR의 경우 느린 수렴(Convergence)와 제한된 feature spatial resolution이라는 단점들을 가지고 있었습니다. 논문에서는 이에 대한 대안으로 Deformable DETR을 제안합니다. 여기에서의 attentiona moudels는 작은 set의 key sampling points를 사용합니다. 본 논문은 sparse spatial locations에 대해 powerful & efficient 한 deformable convolution을 통해 영감을 받은 것 같습니다. Deformable DETR 위의 Figure 1 은 Deformable DETR의 기본적인 형태입니다. 여기에선 나와있지 않지만 Positional Encoding과 같은 과정들은 기존..
[논문 리뷰] DETR : End-to-End Object Detection with Transformers Attention 및 Transformer에 대한 대략적 공부를 하시고 보는 것을 추천드립니다. Panoptic segmentation은 고려되지 않았습니다. Github : https://github.com/yhy258/DETR-For-Study Abstract 이전의 object detection 방법들은 완전한 end-to-end하다고 할 수 없습니다. 그 이유는anchor box를 지정해준다던지 NMS를 통해 더 걸러낸다던지 사람이 상당히 많이 개입하는 부분들이 있기 때문입니다. 그래서 본 논문에서는 특정 매칭 방법을 이용한 이분 매칭을 통해 set prediction을 진행합니다. set prediction은 기존의 Object Detection에서 많은 Bounding Boxes를 detect..
[논문 리뷰] FPN : Feature Pyramid Networks for Object Detection Abstract 이전 feature pyramid는 different scales를 recognition 하기 위한 basic component로써 사용되어왔습니다. 하지만 이 당시의 object detectors는 feature pyramids가 compute and memory intensive해서 사용을 피했었습니다. 이를 해결하기 위해 inherent multiscale인 pyramidal hierarchy 기반 top-down architecture를 제안합니다. Introduction 위의 Fig 1.에는 지금까지의 feature pyramid에 대한 내용이 담겨 있습니다. Featurized image pyramid 이는 Fig 1의 (a)에 해당합니다. 초기 단계의 feature pyram..
[논문 리뷰] Deep Networks with Stochastic Depth https://github.com/yhy258/Stochastic_depth_resnet50 Abstract 지금까지 benchmarks에 대한 error를 놀랍게 낮췄던 CNN의 진보는 Very Deep Convolutional Networks입니다. 하지만 이렇게 깊은 depth를 갖은 convolutional networks의 경우, train 시 어려움이 있습니다. (Vanishing Gradients, train time ...) 이에 대한 해결책으로 논문에서는 Stochastic depth를 제안합니다. train 시 short network를 사용하고 test 시 deep network를 사용합니다. 이 stochastic depth는 layer의 부분을 무작위로 drop하는 방법입니다. 그..
[논문 리뷰] EfficientNet : Rethinking Model Scaling for Convolutional Neural Networks https://github.com/yhy258/pytorch_EfficientNet Abstract 지금까지의 CNN의 개선을 살펴보면 "scale up"이라는 행위와 굉장히 연관이 깊습니다. 이제 CNN을 사용하는데, 제한된 자원이 있고 이 제한된 자원에 맞춰서 될 수 있는 한 개선을 시켜왔습니다. 위에서 말한 "scale-up"은 모델에서 크게 depth,width,resolution 이렇게 세 방면에 적용 할 수 있습니다. 지금까지의 여러 방법들은 이 셋 중 하나씩만 scale up 시켰는데, 이 논문에서는 세 요소의 균형을 이뤄 일률적으로 scale up 시키는 방법을 소개합니다. Introduction ConvNet에서 "scaling up"은 널리 사용하는 accuracy 개선법 입니다. 이에..