Accélérez facilement vos LLM jusqu'à 3x⚡️ tout en préservant plus de 99,5 % de la précision du modèle 🎯
Avec la quantification post-formation de TensorRT Model Optimizer, vous pouvez quantifier des modèles de pointe en NVFP4—réduisant considérablement la mémoire et la surcharge de calcul pendant l'inférence, tout en
Voir l'original