'AI-Study' 카테고리의 글 목록 (2 Page)

# Abstract # Introduction

우선 지금까지의 depth 추정 문제들은 supervised 였고 gt값이 주어졌었는데 이를 어떻게 unsupervised하게 풀어간다는 것인지 궁금하여 본 논문을 읽어보았다. 학습시킬때 독자적인 depth 정보를 사용하지 않는다고 한다. --> binocular stereo footage 기하학적인 조건을 활용하여 image reconstuction loss로 네트워크를 훈련시켜 disparity 이미지를 생성한다. 1. Introduction 2. Related Work 3. Method 3.1 Depth Estimation as Image Reconstruction 3.2 Depth Estimation Network Key Insight: 오직 왼쪽의 이미지 만을 이용해서 Left-to-Right,..

히스토그램 간의 비교를 할 때는 KL Divergence 또는 PDF map을 사용해서 비교해야한다. Chamfer distance는 보통 위상의 크기나 mesh의 형태가 유사한가 비교하기 위해서 사용한다. General한 case로 접근할 것..아이디어를 낼 때는 얼마나 많은 case를 cover할 수 있는가? Corner case를 타겟팅해서는 안된다.

baseline: encoder-decoder convolutional neural network architecture pose the question of how the global processing of information can help improve overall depth estimation 트랜스포머 기반의 Bins모듈을 제안함. 각 이미지에 따라 center value is estimated adaptively per image Final depth values are estimated as linear combinations of the bin centers. 1. Introduction 기존의 conv 레이어들이 global 정보들을 잘 찾지 못한다고 생각하여 본 연구를 진행함. 고..

iDisc논문에서 zero-shot testing을 통해 강건함을 확인했다는데 궁금하여 찾아봄. NLP에서 Task 중 하나로 zero-shot classification이 있다고는 하는데 - 간단하게 말하자면 train했을 때 보지 못했던 데이터에 대해서 어떻게 작동하는지를 평가하는 과정임 - 여기서 "zero-shot"은 학습 단계에서 특정 작업이나 데이터에 대한 예제를 전혀 보지 않았음을 나타낸다.

이 논문에서는 Internal Discretization (ID)라는 모듈을 이용해 High-level patterns를 학습할 수 있게한다. Geometric-Priors 를 사용한 다른 모델들과는 엄연히 다르다. Continuous-Discrete-Continuous Bottleneck 구조로 지도학습 없이 학습할 수 있음 뭐 당연하게 성능이 좋은 모델인 만큼 위의 ID 모듈은 end-to-end로 학습될 수 있음. 1. Introduction 우선 다들 알다시피 MDE task 자체는 2D input 이미지가 무한한 3D scene들로 해석될 수 있다는 문제점을 갖고있음. 위의 문제를 그나마 개선한 MDE의 SOTA들은 크게 두 방법으로 나눠짐. (1)기하학적 제약 조건, 평면적인 사전정보들을 도입..

MDE의 문제: Classification-Regression problem IEBins는 iterative하게 multiple stage를 거치고 전 단계보다 우세하고 세분화돼서 탐색한다. progressively optimizing the search range Iterative한 과정을 통해 쌓인 오차를 완화하기 위해서 elastic target bin을 제시함. 이 Elastic Bin은 depth uncertainty에 맞게 width를 조정함 ( + feature extractor과 iterative optimizer로 구성된 framework도 제시하는데 GRU 기반의 구조로 강력한 temporal context modeling capabilities를 줌)

깊이 추정에 있어서 Self-Supervised 방식의 (1) 장점: 부족한 gt 레이블들을 해결할 수 있음. 자기지도학습은 레이블을 필요로 하지 않으므로. (2) 단점: 이 모델에서 사용되는 reconstruction loss로 인해 객체간의 경계가 smooth 해짐, Incapable of occlusion.(occlusion은 물체가 물체에 가려지는 현상) 비지도학습을 통해서 stereo 이미지들을 통해 깊이 맵을 생성하는 방법을 제안함. threshold면 임계치를 의미하는 건데..

VGGNet (2014)는 옥스퍼드 대학의 VGG(Visual Geometry Group) 팀이 개발한 CNN 구조로 2014년 이미지넷 챌린지에서 우수한 성과를 얻은 구조임, VGGNet은 많은 연구에서 베이스라인으로 사용됨 (ICLR 2015) 차후의 공부나 연구에서 반드시 필요할 것 같아서 정리해보기로함. ICLR 2015 1. Introductions 이미지넷 챌린지를 통해서 비전 모델들이 도전하였는데 high-dimensional shallow feature encodings 부터 deep ConvNet까지 다양한 large-scale image classification system들을 실험할 수 있었다. 이 논문은 CNN에서 depth가 어떤 방식으로 성능에 관여하는가를 보여주기 위함이다. ..

128만 훈련, 5만 검증, 10만 테스트 데이터로 1000종으로 사진을 분류하는 문제이다. 2012년 AlexNet부터 CNN활용을하였음

티스토리툴바