Definizione di Modello multimodale

Un modello multimodale è un modello AI capace di lavorare contemporaneamente con più tipi di dato: testo, immagini, audio, video. Lo stesso assistente può leggere una foto di una bolletta e calcolarne il consumo, ascoltare una registrazione di una riunione e produrne il verbale, guardare un grafico e commentarlo. È l’evoluzione naturale degli LLM: passare da “che capisce parole” a “che capisce il mondo”. GPT-4o, Gemini, Claude nelle versioni recenti sono multimodali. Per le imprese italiane apre casi d’uso concreti: lettura automatica di documenti, controllo qualità su linee produttive, accessibilità (descrizione automatica di immagini), didattica inclusiva.

Vedi anche: LLM, Text-to-Image, Deepfake