본문 바로가기

DeepLearning/논문 리뷰11

[논문 리뷰] Swin Transformer : Hierarchical Vision Transformer using Shifted Windows 0.Abstract -생략 1.Introduction - Transformer를 computer vision에 대한 적용은, 특정한 tasks(e.x., image classification, joint vision-language modeling에서 유망한 결과를 낳았다. - 본 논문에서는, Transformer를 NLP와 CNN이 vision에서 하는 능력과 마찬가지로 computer vision에서 general-perpomance backbone이 되기위해 적용가능성의 확장을 탐색한다. - 본 논문에서, language domain에서 visual domain으로 이전하는 데 있어 상당한 차이가 두 양식(modalities) 간의 차이로 설명될 수 있다는 것을 발견하 였다. 이 차이 중 하나는 s.. 2022. 3. 16.
[논문 리뷰] ViT, AN IMAGE IS WORTH 16*16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (ICLR, 2021) 0. Abstract 생략 1. INTRODUCTION - self-attention-based architectures, 특별히 Transformers은 자연어(NLP) 처리에서의 모델로 선택되고 있었다. 가장 지배적인 접근법은 large text corpus를 이용해 pre-train 한 후, smaller task-specific dataset에 fine-tune 하는 것이었다. Transformers의 computational efficiency와 scalability덕분에, parameter 100B와 함께 전례 없는 size의 models를 train 할 수 있었고, 모델과 데이터셋이 증가하더라도 여전히 성능을 포화시킬 징후는 보이지 않았다. - computer vision에서는, 그러나 co.. 2022. 3. 13.
[논문 리뷰] Deep High-Resolution Representation Learning for Human Pose Estimation, HRNet 0. Abstract 생략 1. Introduction - 2D human pose estimation은 중요한 문제이지만, 그러나 computer vision영역에서는 challenging problem이였다. - 본 논문은 single-person pose estimation에 관심을 두고 있다. ( 이는 나중에 multi-person pose estimation의 기초가 된다!) - 대부분 존재하는 기법들은, 직렬(series)로 연결된 high-to-low resolution subnetworks를 통과하고, 그리고 해상도를 복구하는 방법을 이용한다.(ex. Figure2 - (a)Hourglass: 대칭적인 구조를 이용 ,(c) SimpleBaseline: transposed convolutio.. 2022. 3. 12.
[논문 리뷰]HRformer: High-Resolution Transformer for Dense Prediction 0.Abstract -생략 1. Introduction - Vision Transformer (ViT) 은 imageNet classification tasks에서 전도 유망한 성능을 보이고 있었다. - 몇몇의 연구들은 더 넓은 Vision tasks(e.g object detection,semantic segmentation, pose estimation, video understanding)를 위해 transformer를 확장하려는 시도가 있었다. - Vision Transformer는 이미지를 크기가 16*16인 일련(sequence)의 이미지 패치로 분할(split)하고, 그리고 각각의 image patch의 feature representation을 extracts한다. 따라서, Vision T.. 2022. 3. 11.