Definizione di Quantizzazione

La quantizzazione è la tecnica con cui si riduce la precisione numerica dei parametri di un modello, da 32 bit a 8 o 4, per farlo girare su hardware più piccolo e meno costoso, compresi laptop, server aziendali e dispositivi mobili. Si perde un po’ di precisione, ma in molti casi è impercettibile per l’utente. È la chiave dell’AI “on-premise” e “on-device”: per uno studio professionale che non vuole mandare dati sensibili nel cloud, o per una scuola che vuole far girare un assistente locale sui propri PC, la quantizzazione permette di farlo davvero. Insieme alla distillazione è il principale driver dell’AI accessibile.

Vedi anche: Distillazione, LoRA, Inferenza