Cos'è il file robots.txt
Il file robots.txt è un file di testo posizionato nella directory root di un sito web (es. https://esempio.it/robots.txt) che comunica ai crawler dei motori di ricerca quali pagine o sezioni del sito possono o non possono essere scansionate. Fa parte del Robots Exclusion Protocol, uno standard utilizzato fin dai primi anni del web.
Questo file rappresenta uno degli strumenti fondamentali della SEO tecnica, poiché consente di gestire il crawl budget, ovvero il numero di pagine che Googlebot e altri bot visitano in un determinato periodo. Per siti di grandi dimensioni, un robots.txt ben configurato evita che i crawler perdano tempo su pagine irrilevanti come aree di amministrazione, pagine di ricerca interna o risorse duplicate.
"Un robots.txt mal configurato può impedire l'indicizzazione dell'intero sito. Verifica sempre la configurazione con Google Search Console prima di andare in produzione."
Sintassi e direttive principali
La sintassi del robots.txt si basa su regole semplici ma precise. Ogni blocco di istruzioni inizia con la dichiarazione dello User-agent a cui si applicano le direttive.
Le direttive principali sono:
- User-agent: specifica a quale crawler si applicano le regole (
*per tutti i bot,Googlebotper Google) - Disallow: blocca l'accesso a un percorso specifico (es.
Disallow: /admin/) - Allow: consente l'accesso a un sotto-percorso altrimenti bloccato (es.
Allow: /admin/public/) - Crawl-delay: imposta un ritardo in secondi tra una richiesta e l'altra (supportato da Bing, non da Google)
- Sitemap: indica la posizione della sitemap XML del sito
| Direttiva | Esempio | Effetto |
|---|---|---|
Disallow: / |
Blocca tutto il sito | Nessuna pagina viene scansionata |
Disallow: (vuoto) |
Consente tutto | Tutte le pagine sono accessibili |
Disallow: /privato/ |
Blocca la cartella /privato/ | Solo quella sezione viene esclusa |
Disallow: /*.pdf$ |
Blocca tutti i PDF | Usa pattern matching avanzato |
È importante ricordare che il robots.txt è una direttiva, non un obbligo: i crawler rispettosi come Googlebot lo seguono, ma bot malevoli possono ignorarlo. Per proteggere contenuti sensibili, è preferibile utilizzare autenticazione server-side o meta tag noindex.
Cos'è la Sitemap XML
La Sitemap XML è un file in formato XML che elenca tutte le URL importanti del sito web, fornendo ai motori di ricerca una mappa completa dei contenuti da indicizzare. A differenza del robots.txt che indica cosa non scansionare, la sitemap indica cosa dovrebbe essere scansionato.
Una sitemap ben strutturata è particolarmente utile in questi scenari:
- Siti di grandi dimensioni con migliaia di pagine
- Siti nuovi con pochi backlink esterni
- Pagine che non sono facilmente raggiungibili tramite link interni
- Siti con contenuti multimediali (video, immagini) o internazionali (hreflang)
La sitemap si collega direttamente alla strategia di struttura URL del sito: ogni URL presente nella sitemap deve restituire un codice 200 e non deve essere bloccata dal robots.txt.
Formato e best practice della Sitemap
Il formato standard della sitemap XML prevede un tag <urlset> contenente uno o più tag <url>, ciascuno con i seguenti elementi:
- <loc> (obbligatorio): l'URL completa della pagina
- <lastmod>: la data dell'ultima modifica in formato ISO 8601
- <changefreq>: la frequenza prevista di aggiornamento (daily, weekly, monthly)
- <priority>: un valore da 0.0 a 1.0 che indica la priorità relativa
Best practice per la Sitemap
Google ha dichiarato che i tag changefreq e priority vengono ignorati. Concentrati piuttosto su lastmod con date reali di aggiornamento. Ogni sitemap XML ha un limite di 50.000 URL e 50 MB non compressi. Per siti molto grandi, utilizza un sitemap index che raggruppa più sitemap.
Per siti di medie e grandi dimensioni, una buona strategia prevede la creazione di sitemap separate per tipologia di contenuto: una per le pagine principali, una per gli articoli del blog, una per i prodotti e-commerce. Questo approccio facilita il monitoraggio in Google Search Console.
Testing e validazione
Verificare la corretta configurazione di robots.txt e sitemap è un passaggio cruciale. Gli strumenti principali per il testing sono:
- Google Search Console: offre un tester per robots.txt e consente di sottomettere la sitemap, monitorando errori di copertura e stato di indicizzazione
- Strumenti di validazione XML: verificano che la sitemap rispetti lo schema XSD ufficiale del protocollo sitemaps.org
- Screaming Frog / Sitebulb: tool di crawling che confrontano le URL nella sitemap con quelle effettivamente presenti sul sito, evidenziando discrepanze
- Bing Webmaster Tools: simile a Search Console, permette di testare il robots.txt e sottomettere sitemap per l'ecosistema Bing
Dopo ogni modifica significativa alla struttura del sito, aggiorna la sitemap e verifica che il robots.txt non blocchi accidentalmente le nuove sezioni. I Core Web Vitals non dipendono direttamente da questi file, ma un crawling efficiente contribuisce a una migliore esperienza complessiva.
Errori comuni da evitare
Nella gestione di robots.txt e sitemap si commettono frequentemente errori che possono compromettere l'intera strategia SEO:
- Bloccare CSS e JavaScript nel robots.txt: impedisce a Google di renderizzare correttamente le pagine, compromettendo la SEO mobile e l'analisi dei contenuti
- Includere URL con redirect nella sitemap: ogni URL deve restituire codice 200, non 301 o 302
- Dimenticare la dichiarazione della sitemap nel robots.txt: aggiungi sempre
Sitemap: https://tuosito.it/sitemap.xmlin fondo al file - Non aggiornare la sitemap dopo modifiche strutturali: URL obsolete generano errori 404 che impattano negativamente sulla percezione del sito
- Usare il robots.txt per nascondere pagine dall'indice: il disallow non impedisce l'indicizzazione se la pagina riceve link esterni. Usa il meta tag
noindexper questo scopo
La combinazione di un robots.txt pulito e una sitemap XML aggiornata rappresenta la base di una solida SEO tecnica. Insieme alla corretta configurazione dei meta tag e a una struttura URL coerente, questi elementi garantiscono che i motori di ricerca possano accedere, comprendere e indicizzare efficacemente tutti i contenuti del tuo sito.