이 논문에서는 Internal Discretization (ID)라는 모듈을 이용해 High-level patterns를 학습할 수 있게한다. Geometric-Priors 를 사용한 다른 모델들과는 엄연히 다르다.
Continuous-Discrete-Continuous Bottleneck 구조로 지도학습 없이 학습할 수 있음
뭐 당연하게 성능이 좋은 모델인 만큼 위의 ID 모듈은 end-to-end로 학습될 수 있음.
1. Introduction
우선 다들 알다시피 MDE task 자체는 2D input 이미지가 무한한 3D scene들로 해석될 수 있다는 문제점을 갖고있음.
위의 문제를 그나마 개선한 MDE의 SOTA들은 크게 두 방법으로 나눠짐. (1)기하학적 제약 조건, 평면적인 사전정보들을 도입하거나 (2)연속적인 깊이 값들을 이산화함. (이 말은 즉 frontoparallel plane들을 학습하는 것임) 이 방법들은 그래도 여전히 각 모델의 표현력을 제한한다고 저자는 생각함. 그래서 ID (Internal Discretization)을 도입함.
- 이 모델의 장점: 최종 아웃풋에 대한 제약을 도입하지 않음
- Continuous-to-Discrete Bottleneck 구조를 통해 각 scene의 feature space는 학습가능한 양자로 분할됨.
'각 scene은 물체, 평면과 엣지 등의 관계를 개념이나 패턴으로 표현될 수 있다.'라는 전제를 갖고 있음.
- 제안하는 ID Bottleneck : 어텐션 기반, end-to-end 구조, 인풋과 종속적인 프레임 워크
- Continuous-to-discrete를 어떻게 작동시키느냐? by "transposed" cross-attention; 여기서 transposed란 아웃풋 차원에 softmax를 적용하는 것임; 이 자세한 과정은 잘 이해가 안됨 아래에서 자세히 다뤄볼 듯
Contributions
1. Internal Discretization Module 도입
2. A generalization of SotA methods involving depth ordinal regression
3. Splits of two raw outdoor datasets
2. Related work
- Ordinal Regression (내가 공부하는 AdaBins와 같은 아이들,,. 하지만 classification과는 엄연히 다)
- Iterative Routing
3. Method
3.1 Internal Discretization Module
위에서 말한대로 "continuous-discrete-continuous bottleneck" 구조임. 각 장면은 유한한 쌍의 패턴으로 나타내진다는 가정 하에 1) Continuous->Discrete 단계; 간단히 말하면 "Input-dependent soft clustering"와 2) Discrete->Continous 단계로 나뉨.
3.1.1 Adaptive Feature Partitioning
3.1.2 Internal Scene Discretization