Home/ Wiki/ AI/ NLP

NLP — Natural Language Processing

Come le macchine comprendono, analizzano e generano il linguaggio umano: dai task classici ai Large Language Model basati sui Transformer.

Indice dei contenuti
Aggiornato: Aprile 2026 9 min di lettura

Cos'e il NLP

Il Natural Language Processing (NLP) e la branca dell'intelligenza artificiale che studia l'interazione tra computer e linguaggio umano. L'obiettivo e costruire sistemi capaci di comprendere, interpretare e generare testo e parlato in modo utile.

Il NLP e alla base di tecnologie che usiamo quotidianamente: assistenti vocali, traduttori automatici, filtri antispam, motori di ricerca, chatbot e Large Language Model come GPT e Claude. La disciplina combina linguistica computazionale, statistica e deep learning.

Il linguaggio umano e intrinsecamente ambiguo: "La vecchia porta la sbarra" ha almeno due interpretazioni. Questa ambiguita e la sfida fondamentale del NLP.

Tokenizzazione

Il primo passo di qualsiasi pipeline NLP e la tokenizzazione: la suddivisione del testo in unita minime (token) comprensibili al modello. Per un approfondimento completo, si veda l'articolo dedicato a Token e Tokenizzazione.

I metodi di tokenizzazione si sono evoluti nel tempo:

  • Basata su spazi: "il gatto mangia" diventa ["il", "gatto", "mangia"]. Semplice ma non gestisce le parole composte o le lingue senza spazi.
  • Subword (BPE, WordPiece): suddivide le parole rare in sottounita. "impossibile" potrebbe diventare ["im", "possibil", "e"]. E l'approccio usato dai LLM moderni.
  • Character-level: ogni carattere e un token. Vocabolario minimo ma sequenze lunghissime.

Task classici: POS, NER, parsing

Prima dell'era dei LLM, il NLP si strutturava attorno a task specifici, ciascuno con modelli dedicati:

Task fondamentali del NLP

POS Tagging (Part-of-Speech): assegna a ogni parola la categoria grammaticale (nome, verbo, aggettivo...). Essenziale per il parsing sintattico.

NER (Named Entity Recognition): identifica e classifica entita nominate nel testo (persone, organizzazioni, luoghi, date). Es: "[Federico Boggia]PERSONA lavora a [Milano]LUOGO".

Parsing sintattico: analizza la struttura grammaticale della frase, identificando soggetto, predicato, complementi e le relazioni tra le parole.

Lemmatizzazione e stemming riducono le parole alla forma base: "mangiavano" diventa "mangiare" (lemma) o "mangi" (stem). Lo stemming e piu grezzo ma piu veloce; la lemmatizzazione richiede analisi morfologica.

Sentiment analysis e classificazione del testo

La sentiment analysis determina il tono emotivo di un testo: positivo, negativo o neutro, con possibili gradazioni. E una delle applicazioni NLP piu diffuse nel marketing per monitorare la reputazione del brand, analizzare recensioni e feedback dei clienti.

La text classification e la generalizzazione: assegnare una o piu etichette a un testo. Esempi:

  • Categorizzazione di email (spam/non spam, urgente/non urgente)
  • Classificazione di ticket di supporto per dipartimento
  • Intent detection nei chatbot ("prenotazione", "reclamo", "informazione")
  • Topic modeling per analizzare grandi corpora di testi

Questi task possono essere affrontati con approcci classici (algoritmi di classificazione come Naive Bayes o SVM su feature TF-IDF) oppure con modelli pre-addestrati (fine-tuning di BERT o classificazione zero-shot con LLM).

Word embeddings

Un passaggio cruciale nell'evoluzione del NLP e stato il passaggio da rappresentazioni sparse (one-hot encoding, bag-of-words) a rappresentazioni dense: i word embeddings.

Modelli come Word2Vec (2013) e GloVe (2014) trasformano ogni parola in un vettore denso (tipicamente 100-300 dimensioni) dove parole semanticamente simili sono geometricamente vicine. La famosa analogia: vec("re") - vec("uomo") + vec("donna") risulta vicino a vec("regina").

Il limite degli embedding statici e che ogni parola ha un unico vettore indipendentemente dal contesto: "banco" (di scuola) e "banco" (di lavoro) hanno lo stesso embedding. I modelli contestuali (ELMo, BERT) risolvono questo problema generando embedding diversi in base al contesto. Per un approfondimento, si veda Embedding e Vector Database.

Transformer e LLM

L'architettura Transformer ha rivoluzionato il NLP dal 2017 in poi. Il meccanismo di self-attention permette al modello di considerare tutte le parole di una frase simultaneamente, catturando dipendenze a lungo raggio in modo efficiente.

I Large Language Model (LLM) sono Transformer addestrati su enormi quantita di testo. La loro capacita emergente di risolvere task diversi con semplici istruzioni in linguaggio naturale (few-shot e zero-shot learning) ha unificato il NLP: un singolo modello sostituisce decine di sistemi specializzati.

ModelloTipoTask principali
BERTEncoderClassificazione, NER, QA estrattiva
GPT-4 / ClaudeDecoderGenerazione, reasoning, coding
T5 / BARTEncoder-DecoderTraduzione, summarization

Applicazioni pratiche

Il NLP ha applicazioni trasversali in ogni settore:

  • Chatbot e assistenti virtuali: customer service automatizzato, assistenti vocali (Alexa, Siri, Google Assistant).
  • Traduzione automatica: Google Translate, DeepL, basati su Transformer encoder-decoder.
  • Ricerca semantica: motori di ricerca che comprendono il significato delle query, non solo le parole chiave (fondamentale per la SEO moderna).
  • Content generation: generazione di testi, riassunti, email, codice.
  • Information extraction: estrazione strutturata di dati da documenti non strutturati (contratti, fatture, report).
  • Voice-to-text e text-to-speech: trascrizione automatica (Whisper) e sintesi vocale.

Il NLP e oggi la disciplina AI con il maggiore impatto sul business. Comprenderne i fondamenti — dalla tokenizzazione ai Transformer — e essenziale per sfruttare le potenzialita dei LLM e per costruire applicazioni AI efficaci con RAG e API REST.