일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- mocov3
- shrinkmatch
- GAN
- 컴퓨터구조
- mme paper
- CGAN
- SSL
- 딥러닝손실함수
- CoMatch
- conjugate pseudo label paper
- remixmatch paper
- semi supervised learnin 가정
- dann paper
- WGAN
- CycleGAN
- dcgan
- cifar100-c
- Meta Pseudo Labels
- ConMatch
- BYOL
- Entropy Minimization
- tent paper
- adamatch paper
- 최린컴퓨터구조
- simclrv2
- UnderstandingDeepLearning
- Pix2Pix
- 백준 알고리즘
- Pseudo Label
- shrinkmatch paper
- Today
- Total
목록분류 전체보기 (247)
Hello Computer Vision
경량화 모델 중 하나인 ShuffleNet의 코드를 살펴보던 중 view, transpose를 사용하는 코드들을 발견하였는데 제대롤 이해해야 나중에 잘 활용할 수 있겠다 생각해 알아보았다. 내가 직접 짜지않고 보고 이해하는 것은 할 수 있었으나 실제로 어떤 기능으로 활용되는지는 잘 알 수 없었다. view 예시 우리가 네트워크를 짜는 도중에 input값을 맞출 때 자주 사용된다. x = torch.rand(2,3,4) print(x) tensor([[[0.1796, 0.9432, 0.8833, 0.7571], [0.9830, 0.5509, 0.6370, 0.2307], [0.9010, 0.7599, 0.1854, 0.5038]], [[0.8308, 0.9059, 0.2282, 0.1945], [0.002..
이번에 컴퓨터비전의 여러가지 분야들을 하나씩 찍먹해보면서 공부하는 도중에 Self-supervised Learning(이하 SSL)에 대해 흥미가 생겨 공부를 조금 해보았다. 지도학습과 비지도학습 같은 경우 한번에 이해가 되는 반면에 SSL같은 경우 개념은 이해가 됐지만 구체적인 훈련방법이나 예시들이 잘 나와있지 않아 피상적으로 이해되고 정확히 알 수 없었다. 그래서 여러 글을 찾아보면서 추천해주는 논문을 읽었는데 해당 논문은 https://arxiv.org/pdf/1902.06162.pdf 이다. 그리고 이 글도 참조한 여러 글과 이 논문을 바탕으로 기록해보려고 한다. 논문에서는 정적인 이미지 뿐만 아니라 영상 데이터도 다루었으나 글에 쓰여진 내용은 영상관련은 포함하지 않았습니다. (여러 글들을 보고 ..
논문을 읽는 도중 subsampling이란 말이 계속 등장하는데 정확하게 설명할 수 없다고 생각해 공부해보려고 한다. 내용에 대한 출처는 밑에 적어두었습니다. subsampling말고 sampling이란 말을 우리가 흔히 들어봤다. 제한된 데이터 표본 안에서 어떤 식으로 sampling하는지도 성능에 중요한 요소가 될 수 있다. 그렇다면 subsampling이란 무엇일까? 우선 예시를 들어 설명해보자면, 한 이미지에 대해서 가벼운 변화가 일어나더라도 우리는 쉽게 A라는 것을 알 수 있다. 그 이유는 조그만한 변화가 일어났더라도 전체적으로 A의 형상을 띄고있기 때문이다. 그렇다면 컴퓨터는 이것을 A라고 이해할 수 있을까? 이해할 수도 있지만 못할 수도 있다. 정확하게 분류하기 위해 작은 변화, 위치 이동 ..
이번에 Segmentation에서 중요한 논문 중 하나인 deeplab v1 을 공부하는 도중 CRF에 대한 용어가 나왔는데 잘 이해되지 않아 공부하고 기록하려고 한다. 추가로 unary 가 무엇인지 몰라 찾아보았다. 참조한 내용과 블로그들은 아래에 첨부하였습니다. Unary란? 이거에 대해서 잘 설명해주는 글들이 없었는데 ChatGPT에게 물어보아서 답을 얻었습니다. "In the context of image segmentation in computer vision, unary refers to a term that describes a type of potential function or cost function that is used to determine the likelihood or prob..
이번에 object detection 모델들을 공부해보면서 기본이라고 할 수 있는 Region proposal 방법들을 기록해보려고 한다. 객체탐지는 기존의 분류문제에서 한단계 더 어려운 과제로 다양한 물체가 존재할 수 있는 이미지에 대해서 각 이미지에 대해 분류작업과 그 물체가 어느 곳에 존재하는지에 대한 bounding box를 그려야한다. 각 물체마다 크기와 모양이 다르기 때문에 이는 사실 컴퓨터가 알아서 하기에는 보기에도 정말 어려워보인다 이러한 어려움에 맞서 우선 어느쪽에 이미지가 있을지 컴퓨터가 계산해볼 필요가 있는데 이러한 방법들이 Region proposal이다. 더 많은 기법들이 있겠지만 지금은 sliding window 방식과 selective search 방식을 알아보려고 한다. Sl..
이번에 object detection관련 공부를 하면서 custom dataset을 정의하는 과정에서 ->, :를 발견하여 공부해보려고 한다. 지금까지는 클래스를 정의하면서 따로 써본적이 한번도 없어서 일단 신기했다. ->(화살표)의 쓰임 함수 리턴 값의 주석역할을 한다. def myfunction(x) -> str: return x, type(x) print(myfunction(3)) (3, ) 다음과 같이 주석으로 str이 리턴될 것이라고 알려줘도 에러값이 뜨지않는 것을 확인할 수 있다. : (콜론)의 쓰임 화살표가 (->)가 리턴값에 대한 주석이었다면 콜론은 함수 매개변수에 대한 주석을 나타낸다 def myfunction(x : int) -> str: return x, type(x) print(my..
ConvNextV2 관한 논문을 읽고 있는데 저자들이 GRN을 적용시켰다고 하는데 이를 한번 가볍게 이해해보고자 기록으로 남기려 한다. (다른 분들의 도움을 받을라 했는데 다른 포스팅들이 없어 순전히 논문 설명만을 기대었습니다) 이전에 AlexNet에서 LRN(Local Response Normalization)이 쓰인적이 있던 것이 기억났다. 기억이 잘 나지않아 다시 한번 살펴봤는데 활용요소는 비슷한 거 같아서 GRN이해를 위해 설명 해보려고 한다. LRN이란? Local Response Normalization의 줄임말이다. 다른 분들의 글들을 보면 다음과 같은 그림으로 설명한다. 그림을 잘 보면 검은색 사각형들이 다수 포진해있는걸 확인할 수 있는데 이러한 검은색 도형들로 인해 사이사이에 있는 회색 ..
최근 ViT라든가 CNN논문들을 살펴보면 ReLU 가 아닌 GELU를 사용하는 경우가 많은데 한번 살펴보려고 한다. (논문에서 처음 보았을 때는 오타인줄 알았다..) 일단 파이토치 공식문서에 올라와있는 공식들을 한번 살펴보면 다음과 같다. $GELU(x) = 0.5 * x * ( 1 + Tanh(\sqrt{(2/\pi)} * (x + 0.44715 * x^{3})))$ 상당히 직관적이었던 ReLU와는 달리 조금 복잡한 것을 확인할 수 있다. 적용되는 기울기를 살펴보면 ReLU와 비슷하지만 x가 음수인 부분에서 약간의 기울기가 발생하며 값이 낮아질수록 0으로 수렴함을 알 수 있다. GELU함수는 ReLU, dropout, zoneout 함수들의 특징들을 조합하여 유도되었다고 하는데 ReLU함수가 x부호에 ..