Definizione di RLHF
RLHF è la tecnica con cui un modello AI impara a rispondere in modo utile, sicuro e cortese grazie alle valutazioni di persone reali. Dopo il pre-training, valutatori umani confrontano coppie di risposte del modello e indicano quale preferiscono; il modello adatta il proprio comportamento per massimizzare queste preferenze. È il motivo per cui ChatGPT e gli assistenti simili sono “educati”, evitano contenuti tossici e tendono a essere d’aiuto invece di limitarsi a continuare il testo come farebbe un modello grezzo. È anche un tema delicato: chi sono i valutatori, quali criteri usano, quali valori incorpora il modello? Sono domande di metodo che riguardano direttamente l’allineamento.
Vedi anche: Allineamento, Fine-tuning, Bias algoritmico