Guide & formazione

robots.txt: cos'è e a cosa serve questo file, come crearlo e come utilizzarlo

File robots.txt
Contenuto curato da Massimo Chioni

Il file robots.txt è uno degli elementi a cui dovremmo porre particolare attenzione durante la creazione del nostro sito web. Questa è una risorsa che in un primo momento può spaventare gli utenti meno avvezzi che si trovano di fronte a qualcosa di sconosciuto, apparentemente complesso, ma che è bene imparare a sfruttare. In questa guida andremo a vedere cos’è il file robots.txt e come crearlo.

Cos’è il file robots.txt e come crearlo

Iniziamo a capire cosa sia praticamente questo fantomatico file robots.txt. Si tratta semplicemente di un file di testo che deve essere inserito all’interno della root del nostro sito internet. La root (in italiano radice) è la cartella principale del nostro sito, questa è visitabile digitandone l’URL del seguito dalla dicitura robots.txt (esempio: www.miosito.it/robots.txt). Questo documento viene utilizzato dai crawler di Google e degli altri motori di ricerca per analizzare un sito e procedere alla sua indicizzazione, a differenza dei tag che descrivono la struttura della singola pagina, il file robots.txt descrive l’intero sito, facilitandone la scansione. Come funziona esattamente?

Possiamo paragonare il file ad una sorta di “guida” che accompagnerà i vari spider nella visita del nostro sito. Attraverso questo possiamo infatti dare direttive ai crawler su come accedere alle cartelle e alle risorse presenti sulla nostra pagina web, l'utilizzo del robots.txt non è tuttavia obbligatorio. Per dare un esempio concreto al fine di comprendere bene il concetto, un comando parecchio utilizzato che potremmo impartire attraverso questo file è lo specificare alcune cartelle o pagine alle quali vogliamo vietare l'accesso da parte dei crawler, per far sì che queste non vengano indicizzate.

Come crearlo

Come abbiamo specificato in precedenza i robots.txt non sono altro se non file di testo, il che vuol dire che possono essere creati attraverso normali editor di testo. Per poter indicare i vari comandi che dovranno essere eseguiti dal crawler dovremo rispettare una precisa sintassi, specificando attraverso il comando "User-agent" quale sia lo spider a cui ci stiamo rivolgendo, in caso questo sia seguito da un asterisco intenderemo che è rivolto a tutti i crawler.

Il comando attraverso il quale possiamo impedire l'accesso ad una cartella è "Disallow". Quando decidiamo di creare il nostro file robots.txt dobbiamo porre estrema attenzione ai dettagli, cambiare un simbolo, sbagliare la posizione di una parola, o mancare uno slash potrebbe comprometterne il funzionamento. Se ad esempio volessimo evitare l'accesso ad una sezione del sito ad uno specifico spider, ma erroneamente lasciassimo l'asterisco al posto del nome, andremmo ad impedirne l'accesso a tutti, in questo modo la pagina non verrebbe indicizzata in alcun motore di ricerca.

Sintassi del comando Disallow

La voce Disallow serve a specificare al crawler una pagina del nostro sito web al quale vogliamo vietargli l'accesso.

Con la scrittura "Disallow:/" non andiamo ad imporre alcuna limitazione specifica ai bot, che andranno liberamente a scansionare tutte le pagine del nostro sito. Se vogliamo invece utilizzare il comando per evitare l'accesso ad una pagina precisa dobbiamo in primo luogo specificare a quale crawler ci stiamo riferendo, come detto ciò può essere effettuato scrivendo "User-agent:" seguito dal nome del crawler, in alternativa da un asterisco se vogliamo riferirci a tutti i crawler.

Una volta specificato il robot che deve leggere il comando si passa a scrivere "Disallow: /paginavietata" dove al posto di "paginavietata" andiamo a inserire il nome della cartella che desideriamo proteggere dall'analisi. Per chiarire quale deve essere la sintassi corretta andiamo a fare un esempio relativo ad un'immaginaria pagina denominata "video" di cui vogliamo vietare l'accesso a tutti i crawler.

Ecco quale sarebbe la sintassi:

User-agent: *
Disallow: /video

Come utilizzarlo

Una volta che il file è stato creato sarà necessario posizionarlo all'interno dell'apposita cartella root del nostro sito web. Come già detto precedentemente per accedere a questa posizione ci basterà digitare all'interno della barra di ricerca l'indirizzo URL del nostro sito seguito dalla scritta robots.txt, ad esempio: miosito.it/robots.txt.

È molto importante assicurarsi, quando si va a porre il file all'interno della cartella, di averlo rinominato con il nome "robots.txt", se il file non venisse chiamato esattamente in questo modo, rispettando anche le lettere minuscole, i crawler non riuscirebbero a riconoscerlo, di conseguenza non leggerebbero i comandi riportati al suo interno, andando eventualmente a scansionare anche le cartelle alle quali volevamo evitare l'accesso.

Sitemap

Il file robots.txt può essere un utile strumento anche per indicare ai bot il percorso della sitemap (mappa) del proprio sito. La sintassi corretta da utilizzare è la seguente:

Sitemap: https://example.com/nomesitemap.xml

Attenzione: dovrà essere sostituito il percorso con quello reale del sito web.

Robots.txt e SEO

Il file robots.txt può essere veramente utilizzato e soprattutto ottimizzato per la SEO?

Per iniziare, è bene specificare che esiste una distinzione tra l’attività di scansione (crawling) e quella di indicizzazione (indexing).

Il crawler, come riporta Wikipedia, si occupa della scansione, ovvero “analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca.”

Con il termine “indicizzazione”, invece, si intende, sempre citando Wikipedia “L'inserimento di un sito web o un blog nel database di un motore di ricerca.”

Alcune volte, nonostante sia chiaro il commando di ignorare certe pagine, queste vengono comunque indicizzate.

Se accade ciò, gli URL delle singole pagine compaiono nei risultati di ricerca (SERP), nel campo di norma destinato alla Meta Description, molto probabilmente, sarà inserita la dicitura: “Non è disponibile una descrizione per questo risultato a causa del file robots.txt del sito.”

Ciò è il risultato che indica che quella pagina è stata esclusa tramite istruzioni specifiche inserite nel file robots.txt.

Non bisogna escludere il fatto che i bot (a volte) ignorino completamente il file robots.txt.

Quale quindi potrebbe essere la soluzione più adatta? Bloccare i bot dei motori di ricerca attraverso il MetaTag: “NoIndex”, che dovrà essere posizionato all’interno della pagina da bloccare, nella porzione compresa tra <head> e </head>.

Generatori di robots.txt

Per facilitare la creazione di questi file sono disponibili editor specifici sul web. È bene specificare che di norma i CMS più comuni, lo generano già in automatico, basterà solo modificare o aggiungere vari comandi. Saper maneggiare correttamente il file robots.txt è importante, onde evitare problemi di indicizzazione.

Lascia un commento