25/04/2026
Un modello LLM non riconosce le parole o le frasi come le vedi tu. In realtà non le vede affatto. La trasformazione del testo in ID numerici è il primo passo fondamentale del flusso di lavoro di un LLM. Già a questo punto si introducono delle distorsioni difficili da evitare.
Nel precedente articolo sulla struttura dei modelli (pesi, tensori e quantizzazione), abbiamo visto che un modello LLM è una cascata di 32 blocchi di moltiplicazioni matriciali. Queste matrici trasformano vettori di 4.096 numeri. Tutto questo lavora su vettori di numeri. Il processo però non inizia con vettori di numeri ma inizia con un testo. Il tuo testo.
Quando scrivi una domanda a Llama, ad esempio "Qual è la capitale dell'Italia?" quella stringa di caratteri non entra direttamente nel modello. Il modello non sa "leggere" i caratteri o le parole. Il modello non riconosce le parole e non vede le frasi nel modo in cui le vedi tu, anzi non le vede proprio in nessun modo.
Quello che il modello riceve è una sequenza di numeri interi. In questa versione di Llama un intero è un numero tra 0 e 128.255 che rappresenta un indice in un elenco fisso di 128.256 "token". Un token è l'unità atomica di elaborazione per il modello. La parola "qual" potrebbe essere il token 12345, "è" potrebbe essere il token 234, "la" il token 567, e così via. Il tuo testo diventa una sequenza: [12345, 234, 567, …]. Per chiarezza espositiva ho scelto le parole "qual", "è" e "la" come pezzi del linguaggio che rappresentano un token, ma vedremo che non necessariamente esiste una relazione tra la stringa che rappresenta un token e una parola (e nemmeno con qualunque cosa tu sia abituato a spezzare nelle parole, suffissi, prefissi, radici o desinenze, ecc.).
Questo processo, che porta da testo a sequenza di interi, si chiama tokenizzazione. Ed è il primo step cruciale della pipeline di lavoro di un LLM. È anche il primo luogo dove il modello introduce delle distorsioni e dei vincoli che sono difficili da evitare e che necessariamente ci portiamo dietro. [...]
Articolo a cura di: Emmanuele Somma
Un modello LLM non riconosce le parole o le frasi come le vedi tu. In realtà non le vede affatto. La trasformazione del testo in ID numerici è il primo passo fondamentale del flusso di lavoro di un LLM. Già a questo punto si introducono delle distorsioni difficili da evitare.