DeepLearning28 [논문 리뷰] Deep High-Resolution Representation Learning for Human Pose Estimation, HRNet 0. Abstract 생략 1. Introduction - 2D human pose estimation은 중요한 문제이지만, 그러나 computer vision영역에서는 challenging problem이였다. - 본 논문은 single-person pose estimation에 관심을 두고 있다. ( 이는 나중에 multi-person pose estimation의 기초가 된다!) - 대부분 존재하는 기법들은, 직렬(series)로 연결된 high-to-low resolution subnetworks를 통과하고, 그리고 해상도를 복구하는 방법을 이용한다.(ex. Figure2 - (a)Hourglass: 대칭적인 구조를 이용 ,(c) SimpleBaseline: transposed convolutio.. 2022. 3. 12. Global Average Pooling(GAP) - global average pooling(gap)이란, 같은 채널의 feature들을 모두 평균을 낸 다음에 채널의 갯수만큼 원소를 가지는 것. --> classifier인 FC layer를 없애기 위한 방법으로 도입하였다. * 기존 FC layer의 특징 - 마지막 feature와 matrix곱을 하여 feature 전체를 연산의 대상으로 삼아서 결과를 출력, 즉 feature가 이미지 전체를 함축하고 있다고 가정하면 이미지 전체를 보고 output을 만들어 내는 것이다. 그로인한 단점은 다음과 같다. 1) parameter수의 증가 2) feature 전체를 matrix연산하기 때문에 위치에 대한 정보도 사라짐 3) FC layer의 사이즈로 인해 입력의 이미지 사이즈 또한 그에 맞춰서 고정되어야.. 2022. 3. 12. [논문 리뷰]HRformer: High-Resolution Transformer for Dense Prediction 0.Abstract -생략 1. Introduction - Vision Transformer (ViT) 은 imageNet classification tasks에서 전도 유망한 성능을 보이고 있었다. - 몇몇의 연구들은 더 넓은 Vision tasks(e.g object detection,semantic segmentation, pose estimation, video understanding)를 위해 transformer를 확장하려는 시도가 있었다. - Vision Transformer는 이미지를 크기가 16*16인 일련(sequence)의 이미지 패치로 분할(split)하고, 그리고 각각의 image patch의 feature representation을 extracts한다. 따라서, Vision T.. 2022. 3. 11. [논문 리뷰] Uformer: A General U-shaped Transformer for Image Restoration 0. Abstract - 생략 1. Introduction - 최근의 state-of-the-art methods는 대부분 convNets-based로 되어 있는데, 이는 인상적인 results를 얻을 수 있었지만, long-range dependencies를 capture하는데 한계가 있었다. - 이 문제를 해결하기 위해, 몇몇의 최근의 연구는 단일한 혹은 몇개의 self-attention layers를 low resolution feature maps에 이용하는 방법을 이용했는데, 왜 low resolution에 적용을 하나면, self-attention의 computational complexity가 feature map size의 제곱이 되기 때문이다. - 본 논문에서는, 더욱 다양한 이미지 de.. 2022. 3. 10. 이전 1 2 3 4 5 ··· 7 다음