일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- adamatch paper
- CycleGAN
- 딥러닝손실함수
- CGAN
- mocov3
- 백준 알고리즘
- SSL
- shrinkmatch paper
- mme paper
- 최린컴퓨터구조
- 컴퓨터구조
- WGAN
- conjugate pseudo label paper
- dann paper
- Meta Pseudo Labels
- cifar100-c
- BYOL
- Pseudo Label
- dcgan
- Entropy Minimization
- ConMatch
- CoMatch
- remixmatch paper
- simclrv2
- Pix2Pix
- semi supervised learnin 가정
- tent paper
- UnderstandingDeepLearning
- shrinkmatch
- GAN
- Today
- Total
목록Generative (20)
Hello Computer Vision
사실 Transformer 논문은 지난 번에도 본적이 있었고 그때 당시에는 이해를 했다고 넘어갔으나 Transformer에 대해 한동안 손을 놓았고 다시 보았을 때 알고리즘이 머리에 바로 떠오르지 않아 다시 한번 정리해보려고 한다. https://arxiv.org/pdf/1706.03762.pdf 기존 RNN의 문제점 병렬화가 안된다. 문장이 길수록 메모리에 문제가 생긴다. Transformer 구조 기존 번역 모델과 같은 Encoder - Decoder 구조를 띄고 있으며 여기서 RNN구조를 다 제외하고 Attention 기법만을 이용해 구조를 완성시켰다. 구조에 대한 설명은 Encoder, Decoder 부분을 분리시켜 설명을 한번 해보려고 한다. 그 전에 두 부분의 공통적으로 들어가는 Self-At..
Transformer 구조에서 이루고 있는 self-attention 코드를 구현해보려고 합니다. 자료 참고 : ratsgo님 블로그 나동빈님 유튜브위키독스 기존 RNN 구조를 제거하였지만 여전히 인코더/디코더 구조는 유지하고 있으며 인코더와 디코더 두 곳에서 모두 self-attention이 이루어집니다. self attention이란 Query, Key, Value값의 출처가 같은 것을 의미합니다.(모두 인코더에서 온다/ 디코더에서 온다) 첫번째로는 인코더 파트에서 self-attention이 이루어집니다. 보통 여러개의 레이어가 있고 레이어마다 각각 수행이 됩니다. 두번째로는 여러개의 인코더 파트에서의 attention score가 넘어오기 전 디코더 파트에서도 self-attention 이 이루어..
Transformer를 공부하기 위해 Attention 관련 논문을 살펴보려고 한다. 이 논문에서는 대놓고 attention mechanism 이라고 언급하기 보다는 새로운 구조라고 말한다. 논문 처음부터 천천히 읽어보겠습니다. Introduction 기존의 machine translation(Seq2Seq)에 단점에 대해서 언급을 합니다. Encoder-Decoder로 이루어진 구조는 긴 문장에 대해서 대응하기 힘들고 그 길이가 길어질 수록 성능이 악화된다고 합니다. (fixed vector length --> bottleneck 유발) 그렇기 때문에 Encoder-Decoder 학습과정에서 learn align, translate jointly 한다고 합니다.(논문의 핵심) 그리고 기존 구조 접근방식..
지난번 Style Transfer 논문 리뷰에 이은 AdaIN 논문 리뷰입니다. Style Transfer의 gram matrix개념은 사실 너무 복잡하고 어려워서 완전히 이해하기 힘들었는데 이번 논문은 빠르고 많은 수의 스타일을 임의로 전달할 수 있다는 점에서 아주 인상적입니다. 바로 시작해보겠습니다. Introduction 기존 style transfer하는 방법들은 각각의 trade-off를 가지고 있었습니다. 속도가 빠르지만 스타일을 1개만 전달/ 속도가 느리고 여러개의 스타일을 전달 그리고 이 논문에서는 이러한 문제점들을 Instance Normalization 개념을 통해서 개선했다고 합니다. 이러한 방법은 3자리수의 속도 이상을 개선했다고 합니다.(100배) BatchNormalization..
오랜만에 논문 리뷰입니다! 시험 끝나고 좀 쉬면서 선형대수를 공부하다보니 일주일이 흘렀네요.. 이번 논문은 Style Transfer로 잘 알려진 논문입니다. 바로 한번 들어가보겠습니다. Introduction 이 논문을 쓰기 전까지는 기존 texture tranfer(style transfer와 같은 개념)는 non parameterice method였다고 합니다. 그리고 결과들이 나쁘지는 않았지만 치명적인 단점으로는 low-level image featurea만을 변경할 수 있었다합니다. 이를 한번 생각해보자면 기존 방법들은 어떤 이미지가 들어오든 똑같은 방식으로 변환하고 있었던 것입니다. 그렇기 때문에 이 논문에서는 근본적인 요구조건으로 image representation을 찾는 것이라 말합니다...
지난번 논문 리뷰에 이은 코드리뷰이다. 생성자와 판별자, 손실함수 위주로 진행해보겠습니다. 생성자 정의 class UNetDown(nn.Module): #UNet class 정의하기 def __init__(self, in_channels, out_channels, normalize = True, dropout = 0.0): super(UNetDown, self).__init__() layers = [nn.Conv2d(in_channels, out_channels,4, stride = 2, padding = 1, bias = False)] if normalize: layers.append(nn.InstanceNorm2d(out_channels)) layers.append(nn.LeakyReLU(0.2)) ..
지난 번 U-Net에 이어서 U-Net구조를 활용한 Pix2Pix 논문 리뷰입니다. 처음부터 천천히 읽어나가보겠습니다. Introduction 처음부터 translation에 대하여 정의하는데요, translation an input image into a corresponding output image로 정의할 수 있지만 저자들은 translating one possible representation of a scene into another 으로 정의합니다. 요약해보자면 optimal 한 G가 있다한다면 A이미지에 대해 B로도 translating 가능하고 C로도 translating될 수 있다는 가능성이 있다는 걸 말하는 거 같습니다. 본인들이 만든 framework에 대해서 CNN을 사용하는데 이..
이번에 CycleGAN을 살펴보면서 pix2pix에서 발전된 형태라 해서 pix2pix를 공부하려고 했는데 네트워크 구조가 U-Net이라고 해서 먼저 논문을 읽어보려고 합니다. 보니까 생성모델 논문이라고 보다는 의료쪽에서의 Image Segmentation 를 위한 네트워크 였더라고요. 그래서 조금 생소한 용어들이 많이 나와서 완벽히 이해하기 힘들었기 때문에 구조 위주로 설명해보겠습니다. 참고자료 및 이미지 강준영님의 블로그 의료데이터는 모으기 굉장히 힘들기 때문에 훈련 데이터셋을 구성하기 굉장히 힘듭니다. 그러한 문제를 해결하기 위한 데이터증강 방법으로 U-Net 을 만들었다고 합니다. 그리고 우리가 보통 이미지 한개에 대해 클래스를 부여한다면 특이하게 의료데이터에서는 픽셀 단위로 클래스 라벨을 부여한..