HRFormer1 [논문 리뷰]HRformer: High-Resolution Transformer for Dense Prediction 0.Abstract -생략 1. Introduction - Vision Transformer (ViT) 은 imageNet classification tasks에서 전도 유망한 성능을 보이고 있었다. - 몇몇의 연구들은 더 넓은 Vision tasks(e.g object detection,semantic segmentation, pose estimation, video understanding)를 위해 transformer를 확장하려는 시도가 있었다. - Vision Transformer는 이미지를 크기가 16*16인 일련(sequence)의 이미지 패치로 분할(split)하고, 그리고 각각의 image patch의 feature representation을 extracts한다. 따라서, Vision T.. 2022. 3. 11. 이전 1 다음