baseline: encoder-decoder convolutional neural network architecture
pose the question of how the global processing of information can help improve overall depth estimation
트랜스포머 기반의 Bins모듈을 제안함. 각 이미지에 따라 center value is estimated adaptively per image
Final depth values are estimated as linear combinations of the bin centers.
1. Introduction
기존의 conv 레이어들이 global 정보들을 잘 찾지 못한다고 생각하여 본 연구를 진행함.
고해상도에서 연구를 진행할 수록 global 정보를 더 잘 찾을 수 있음