Definizione di Inferenza

L’inferenza è la fase in cui un modello AI già addestrato risponde a una nuova richiesta. Non sta imparando nulla di nuovo in quel momento: sta applicando ciò che ha appreso. È la fase a cui corrisponde il costo d’uso operativo: ogni volta che chiami un’API o usi un chatbot stai pagando inferenza, di solito in base al numero di token in ingresso e in uscita. Ottimizzare l’inferenza (modelli più piccoli, quantizzazione, distillazione, caching) è cruciale quando un servizio AI deve girare in produzione, su volumi reali. Per una PMI il conto dell’inferenza può fare la differenza tra un progetto sostenibile e uno fuori budget.

Vedi anche: Addestramento, Token, Distillazione, Quantizzazione