Definizione di Jailbreak
Il jailbreak, in ambito AI, è una tecnica per aggirare i limiti di sicurezza di un modello e fargli produrre contenuti che normalmente rifiuterebbe: istruzioni pericolose, opinioni che ha promesso di non esprimere, dati sensibili. Funziona con prompt costruiti per ingannare il sistema: scenari ipotetici, ruoli fittizi, istruzioni nascoste in lingue meno presidiate. È il fronte caldo della sicurezza AI: chi sviluppa modelli alza continuamente le difese, chi prova ad aggirarle (per ricerca o per scopi illeciti) trova nuovi modi. Per aziende e PA significa che ogni sistema AI esposto al pubblico va trattato come un’applicazione che riceve attacchi, con monitoraggio, log, policy di uso accettabile e procedure di risposta.
Vedi anche: Allineamento, Bias algoritmico, AI Act