Orin AGX에 올릴 OD모델 경량화를 위해 KD Method를 적용하려는데 원리를 깊게 알고싶어서 논문을 읽어보았다. 추후에는 코드에 직접 적용할 것이다.
[ Abstract ]
- 성능 향상을 위해서 모델 앙상블을 사용하면 계산량이 급격하게 증가한다.
- 이럴 때 접근법: Compress the knowledge in an ensemble, 하나의 모델에 compression technique을 적용하는 것이다.
[ 1. Introduction ]
- Training stage & Deployment stage
- "Cumbersome Model"이 train된 후에 distillation 사용하는 것이다.
- 여기서 말하는 Cumbersome 한 모델은 teacher 모델을 의미하고, Small한 모델은 student 모델이겠다.
- Change the form of the model but keep the same knowledge인 셈임.
[ 2. Distillation ]
[ 3. MNIST에 적용한 초기 실험들 ]
[ 4. Speech Recognition에 적용한 실험들 ]
[ 5. Training ensembles of specialitsts on very big datasets ]
[ 6. Soft Targets as Regularizers ]
[ 7. Relationship to mixture of experts ]
[ 8. Discussion ]
'AI-Study > Base' 카테고리의 다른 글
[AI-Paper] VGGNet : Very Deep Convolutional Networks For Large-Scale Image Recognition (0) | 2023.11.05 |
---|