Les modèles de langage (LLM) comme LLAMA3, dans sa version de 70 milliards de paramètres (70B) font une taille de plusieurs dizaines de Giga Octets: 163 Go pour ce modèle par exemple.
Aujourd'hui, les meilleurs GPUs disposent de 80 GB de RAM dédiée (par exemple la carte NVIDIA H100). Pour charger et utiliser le modèle LLAMA3, il faut donc trois cartes H100. A 60 000 € la carte (prix public) le budget devient vite conséquent.
De la même manière que la compression audio ou vidéo, un principe similaire permet de “compresser” un LLM: la quantification (ou quantization en Anglais). Cette opération permet de réduire la taille des modèles pour une usage plus responsable des ressources (hardware et énergie)
Cette présentation abordera, dans un premier temps, les principes de la quantification des LLMs, puis, dans un second temps, l'impact de cette quantification sur la taille finale des modèles et leur performance, en incluant des exemples concrets d'utilisation.