z DeepStudy
본문 바로가기

전체 글

(59)
Variational Auto Encoder를 이해해보자! (3) 이 포스트는 http://paulrubenstein.co.uk/variational-autoencoders-are-not-autoencoders/ 블로그를 보고 이해한 바 대로 작성한 글 입니다. 개인적인 생각으로 이 포스트에서 수식적으로 풀어나가는 방법을 통해 견해를 더 넓힐 수 있다고 생각이 들었습니다. VAE의 학습 불안정성 간혹 우리는 매우 강력한 decoder로 훈련을 하게 됩니다. 이때 매우 강력한 decoder로 훈련을 하게 된다면 model이 주어진 latent variable에 대한 정보를 무시하는 경우가 발생합니다. 이를 Failure mode라고 합니다. 하지만 이 경우 ELBO에 관한 Score 자체는 좋게 나옵니다. 이 상황을 통해 알 수 있는 점이 하나 존재합니다. 저희의 본질..
Variational Auto Encoder를 이해해보자! (2) 저번 포스트에서는 전체적인 상황, 그리고 이를 위한 solution에 대해서 알아보고 Reparameterization에 대한 이유에 대해서도 알아보았습니다. (AEVB) 이번에는 논문에서 제시된 Example : Variational Auto-Encoder에 대해 알아보겠습니다. Example : Variational Auto-Encoder 더보기 사견 autoencoder 형식이다. 간단하게 말하면 sample x를 통해 mean과 var를 만들고 이 정보를 통해 latent z 를 샘플링 한 후 다시 x를 만들어낸다. 여기에서 주목해야할 점은 "무작위성"이다. x -> z로 보낸다. 하지만 여기에서의 z는 어느정도의 무작위성을 갖는다. mean + std * normal 형태로 만들어지니까.. 자연..
Variational Auto Encoder를 이해해보자! (1) Abstract 이 논문에서 제시하는 contributions는 두가지로 볼 수 있는데, 첫번째로는, Variational lower bound의 reparametrization. (standard stochastic gradent method). 이는 차후에 Likelihood-ratio Gradient 와 관련하여 알기 쉽게 수식적으로 풀어나가보도록 하겠습니다. 두번째로는 lower bound estimator 를 통해서 data point당 연속적인 잠재변수를 갖는 i.i.d datasets에서의 posterior를 효과적으로 fitting 가능하다는 것입니다. 보통 알려져있는 VAE는 생성 모델로서 존재하는데, 이와 관련지어 설명하자면 i.i.d datasets의 datapoint 당 연속적인 잠..
Denoising Diffusion Probabilistic Model : DDPM 이 논문은 개인적으로 굉장히 어려웠다. 그래도 수식적으로 이어나가다 보니 이해가 되긴 하였고, 이 지식을 복습하고자 작성한다. Abstract 이 논문에서는 nonequilibrium thermodynamics로부터 고안된 잠재 변수 모델 중 하나인 diffusion probabilistic models를 제안한다. 이 diffusion probabilistic model은 high quality image synthesis를 수행 할 수 있다. 이 논문에서는 diffusion probabilistic model과 Langevin dynamics의 denoising score에 적절한 connection을 사용한다. Introduciton 요약 간단히 결론부터 설명하면 DDPM은 주어진 이미지에 time..
[강화학습] 다중 선택 문제 (K-armed bandit Bandit) Epsilon Greedy 현재 상황(Optiaml하지 않음)에서 내가 가지고 있는 정보를 기반으로 최적의 선택으로 하려고 합니다. 하지만 동시에 이게 진짜 최적의 선택인가에 대한 의문 또한 품어야합니다. 그럼 내가 가지고 있는 정보 기반으로 최적의 선택만 해야할까요?? 아닙니다. 만약 그렇게 된다면 더 나은 길을 못 볼 수도 있습니다. 그렇기 때문에 어느정도 삐딱선을 타야합니다. 최적의 선택을 함에 있어서 삐딱선을 탐은 Exploration을 의미합니다. 현재 정보에 의존하지 않고 그냥 랜덤으로 action을 정하는 거예요. 그리고 단순히 내가 가지고 있는 정보를 기반으로 최적의 선택을 하는 것을 Exploitation이라고 하고, 그저 Exploitation을 수행하는 것을 Greedy 라고 합니다...
[코드 개인 공부] : Single Shot Multibox Detector (SSD) 개요 여러 블로그에서 SSD에 대한 설명은 충분히 나와있습니다만, 막상 코드에서 어떻게 돌아가는지를 파악할 때 어려움이 굉장히 많았어서 SSD가 실행 될 때 중요 부분 코드를 뜯어보고자 작성했습니다. (개인 공부 목적, Image Tracking 목적) SSD에서 여러번 prediction하는 layer를 포함하는 부분 등 깃허브의 코드를 봤을 때 자명하게 알 수 있는 부분들은 제외했습니다. github : https://github.com/amdegroot/ssd.pytorch SSD Module class SSD(nn.Module): def __init__(self, phase, size, base, extras, head, num_classes): super(SSD, self).__init__() ..
Vision Transformer의 이해와 Swin Transformer 목차 Introduction Attention Seq2Seq Attention Dot-Product Attention Attention All You Need Positional Encoding Multi=Head Attention Why Self-Attention? ViT Input Positional Encoding Transformer Encoder ViT Review Hybrid Architecture Fine Tuning and Higher Resolution Setup Swin Transformer Introduction Overall architecture Shifted Window based Self-Attention Reference Introduction 현재 자연어 처리 (NLP) 부..
[논문 리뷰] Deformable DETR : Deformable Transformers For End-To-End Object Detection Abstract 기존 DETR의 경우 느린 수렴(Convergence)와 제한된 feature spatial resolution이라는 단점들을 가지고 있었습니다. 논문에서는 이에 대한 대안으로 Deformable DETR을 제안합니다. 여기에서의 attentiona moudels는 작은 set의 key sampling points를 사용합니다. 본 논문은 sparse spatial locations에 대해 powerful & efficient 한 deformable convolution을 통해 영감을 받은 것 같습니다. Deformable DETR 위의 Figure 1 은 Deformable DETR의 기본적인 형태입니다. 여기에선 나와있지 않지만 Positional Encoding과 같은 과정들은 기존..