전체 글56 [논문 리뷰] ViT, AN IMAGE IS WORTH 16*16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (ICLR, 2021) 0. Abstract 생략 1. INTRODUCTION - self-attention-based architectures, 특별히 Transformers은 자연어(NLP) 처리에서의 모델로 선택되고 있었다. 가장 지배적인 접근법은 large text corpus를 이용해 pre-train 한 후, smaller task-specific dataset에 fine-tune 하는 것이었다. Transformers의 computational efficiency와 scalability덕분에, parameter 100B와 함께 전례 없는 size의 models를 train 할 수 있었고, 모델과 데이터셋이 증가하더라도 여전히 성능을 포화시킬 징후는 보이지 않았다. - computer vision에서는, 그러나 co.. 2022. 3. 13. Object Keypoint Similarity - 주로 COCO dataset을 평가 할 때 사용한다. - IOU와 매우 유사한 역할을 하는 metric이다. 2022. 3. 12. [논문 리뷰] Deep High-Resolution Representation Learning for Human Pose Estimation, HRNet 0. Abstract 생략 1. Introduction - 2D human pose estimation은 중요한 문제이지만, 그러나 computer vision영역에서는 challenging problem이였다. - 본 논문은 single-person pose estimation에 관심을 두고 있다. ( 이는 나중에 multi-person pose estimation의 기초가 된다!) - 대부분 존재하는 기법들은, 직렬(series)로 연결된 high-to-low resolution subnetworks를 통과하고, 그리고 해상도를 복구하는 방법을 이용한다.(ex. Figure2 - (a)Hourglass: 대칭적인 구조를 이용 ,(c) SimpleBaseline: transposed convolutio.. 2022. 3. 12. Global Average Pooling(GAP) - global average pooling(gap)이란, 같은 채널의 feature들을 모두 평균을 낸 다음에 채널의 갯수만큼 원소를 가지는 것. --> classifier인 FC layer를 없애기 위한 방법으로 도입하였다. * 기존 FC layer의 특징 - 마지막 feature와 matrix곱을 하여 feature 전체를 연산의 대상으로 삼아서 결과를 출력, 즉 feature가 이미지 전체를 함축하고 있다고 가정하면 이미지 전체를 보고 output을 만들어 내는 것이다. 그로인한 단점은 다음과 같다. 1) parameter수의 증가 2) feature 전체를 matrix연산하기 때문에 위치에 대한 정보도 사라짐 3) FC layer의 사이즈로 인해 입력의 이미지 사이즈 또한 그에 맞춰서 고정되어야.. 2022. 3. 12. 이전 1 ··· 5 6 7 8 9 10 11 ··· 14 다음