Definizione di Allineamento
L’allineamento è la disciplina che cerca di far comportare un modello AI in modo coerente con le intenzioni e i valori delle persone che lo usano e, più in generale, della società. Il problema nasce dal fatto che un modello ottimizza ciò che gli viene indicato come obiettivo, ma le intenzioni umane sono complesse, contestuali e a volte contraddittorie. Le tecniche di allineamento includono RLHF, regole esplicite (Constitutional AI), filtri di sicurezza, red-teaming. È un campo aperto, dove si gioca sia la sicurezza sia la fiducia degli utenti. Per chi adotta AI in scuole, PA o aziende, l’allineamento è il tema che sta dietro le domande “ma posso fidarmi di quello che mi dice?” e “rispetta i miei valori?”.
Vedi anche: RLHF, Bias algoritmico, Jailbreak, AI Act