Knowledge distillation method for better vision-language models

February 22, 2024

Amazon AWS

Method preserves knowledge encoded in teacher model’s attention heads even when student model has fewer of them.Read More

Navigation