[ AI-Paper ] Distilling the Knowledge in NN

Orin AGX에 올릴 OD모델 경량화를 위해 KD Method를 적용하려는데 원리를 깊게 알고싶어서 논문을 읽어보았다. 추후에는 코드에 직접 적용할 것이다.

[ Abstract ]

성능 향상을 위해서 모델 앙상블을 사용하면 계산량이 급격하게 증가한다.
이럴 때 접근법: Compress the knowledge in an ensemble, 하나의 모델에 compression technique을 적용하는 것이다.

[ 1. Introduction ]

[ 2. Distillation ]

[ 3. MNIST에 적용한 초기 실험들 ]

[ 4. Speech Recognition에 적용한 실험들 ]

[ 5. Training ensembles of specialitsts on very big datasets ]

[ 6. Soft Targets as Regularizers ]

[ 7. Relationship to mixture of experts ]

[ 8. Discussion ]

[AI-Paper] VGGNet : Very Deep Convolutional Networks For Large-Scale Image Recognition (0)	2023.11.05

티스토리툴바