우선 지금까지의 depth 추정 문제들은 supervised 였고 gt값이 주어졌었는데 이를 어떻게 unsupervised하게 풀어간다는 것인지 궁금하여 본 논문을 읽어보았다.
학습시킬때 독자적인 depth 정보를 사용하지 않는다고 한다. --> binocular stereo footage
기하학적인 조건을 활용하여 image reconstuction loss로 네트워크를 훈련시켜 disparity 이미지를 생성한다.
1. Introduction
2. Related Work
3. Method
3.1 Depth Estimation as Image Reconstruction
3.2 Depth Estimation Network
Key Insight: 오직 왼쪽의 이미지 만을 이용해서 Left-to-Right, Right-to-Left disparities를 동시에 추론할 수 있다.
Bilinear Sampler -> A Fully differentiable image formation 모델을 생성함.
Backward Mapping -> Predicted Image
CNN을 통해 얻은 격차 맵을 가지고 Sample하여 depth map을 얻는다.
기본구조는 그냥 인코더-디코더에 skip connection을 사용한거임, Encoder로는 vgg, resnet50 등...
Skip connection은 DispNet과 FlowNet과 같은 걸 사용함
[ 1. Bilinear Sampler ]
* Spatial Transformer Networks(NIPS 15)에서 나온 개념 -> Fully Differentiable (end-to-end이고 좋은 reconstruction 퀄리티를 갖고 있음)
4. Results
5. Conclusion
.
..
...
....