Come usare la direttiva Crawl-Delay del Robots.txt

Molti crawler supportano la direttiva “Crawl-delay” la quale imposta il numero di secondi che i bot e crawler dei motori di ricerca (e non solo) devono attendere prima di effettuare la richiesta successiva al web server.

Il parametro Crawl-delay veniva generalmente usato da grandi portali aggiornati di frequente. Nel caso di Twitter ad esempio, Googlebot e altri principali bot amano visitare continuamente il suo server perché è facile trovare contenuti nuovi. Attraverso una scansione continua dei siti web i motori di ricerca possono fornire risultati di ricerca aggiornati praticamente in tempo reale.

Dato che la visita costante di numerosi bot potrebbe mettere sotto stress il web server, Twitter ha impostato un intervallo di crawling per ogni richiesta nel suo file Robots.txt (vedi immagine).

Cose da sapere

L’obiettivo principale del parametro crawl-delay è quello di evitare il sovraccarico del web server causato dalle frequenti richieste dei bot, risulta quindi utile in siti grandi con molti contenuti pubblicati frequentemente. Siti di piccole dimensioni non necessitano di questa direttiva.

YahooSlurp, MSNBot supportano la direttiva Crawl-delay, altri bot invece la ignorano. Per questo motivo è consigliato assegnare la direttiva a specifici bot e non come regola generale:

Come fare:
User-agent: MSNBot
Crawl-delay: 5

Come non fare:
User-agent: *
Crawl-delay: 5

Il tempo rappresentato nel crawl-rate è indicato in secondi. Se il tuo server ospita più siti web consiglio di utilizzare crawl-delay maggiori di 1 secondo. Valori uguali o inferiori a 1 secondo non ridurranno il sovraccarico del web server.

Googlebot non supporta il crawl-delay

Il crawl-delay di Googlebot non può essere impostato tramite direttiva nel Robots.txt poichè questo parametro viene ignorato.

Per impostare il ritardo di crawling per Google è necessario utilizzare la funzione “crawl-rate” in Google Search Console che trovate in “Site configuration” cliccando su “Settings” (vedi immagine). In questo box puoi impostare il valore che preferisci affinchè il tuo web server possa lavorare rilassato :)

La nuova impostazione tuttavia non durerà per sempre ma per un tempo limitato di 90 giorni.

Impostare il Crawl-Delay con Google Search Console

Articoli correlati

1 min lettura

Potrebbe essere utile bloccare GPT per proteggere il contenuto esclusivo o sensibile del tuo sito. L'User Agent GPTBot di OpenAI obbedisce alle direttive nel file[..]

28/09/2023, Giovanni Sacheli

1 mi piace

Autore

Giovanni Sacheli Consulente Search Marketing @Eve Milano

Mi chiamo Giovanni Sacheli, sono un appassionato professionista del Search Marketing, specializzato in SEO e PPC. Da oltre un decennio, mi dedico all'ottimizzazione dei siti web a livello internazionale. Come consulente, relatore e professore, dal 2010, mi impegno a migliorare la visibilità online e il traffico web delle aziende. Attualmente, gestisco Searcus Swiss Sagl, una micro agenzia svizzera focalizzata sul Search Marketing. Sono co-autore del "libro SEO Audit Avanzato" e curo con dedizione evemilano, un blog di riferimento nel settore dove condivido guide e tutorial avanzati per consulenti, webmaster e addetti ai lavori. La mia passione non si limita al lavoro: amo la tecnologia, i viaggi in moto e sono un fiero NERD degli anni '80, nonché orgoglioso papà di due meravigliosi bambini.

Informativa sui cookies

Noi e terze parti selezionate utilizziamo cookie o tecnologie simili per finalità tecniche e, con il tuo consenso, anche per le finalità di esperienza e misurazione come specificato nella cookie policy. Puoi liberamente prestare, rifiutare o revocare il tuo consenso, in qualsiasi momento, accedendo al pannello delle preferenze. Il rifiuto del consenso può rendere non disponibili le relative funzioni. Usa il pulsante “Accetta” per acconsentire. Usa il pulsante “Rifiuta” per continuare senza accettare.

Commenti |2

Lascia un commento

Fausto SEO 9 commenti

30/07/2018 alle 15:51

Ciao Giovanni,
sto seguendo un sito su Siteground.
Ti è mai capitato di scrivere www.indirizzodelsito.it/robots.txt e vedere che c’è una regola tipo:
Crawl-delay: 10

Poi vai a scaricare il file robots e quella regola non c’è più?
Ti aggiungo che nella GSC è tutto settato di default “Lascia che Google esegua l’ottimizzazione per il mio sito (consigliata)”
Sai per caso se dal Cpanel di Siteground si possa riscrivere un file robots.txt ?
Grazie

Rispondi
1. Giovanni Sacheli 756 risposte
  
  03/08/2018 alle 19:31
  
  Ciao Fausto, scusa il ritardo.
  Non ho siti su Siteground ma credo che quello che descrivi sia più un problema di plugin che sovrascrive il robots standard (Yoast?).
  Proverei a disabilitare tutti i plugin, cancellare cache & Co, e riproverei ad aprire il Robots.txt.
  
  Fammi sapere :D
  
  Rispondi

Come usare la direttiva Crawl-Delay del Robots.txt

Cose da sapere

Googlebot non supporta il crawl-delay

Articoli correlati

Autore

Commenti |2

Lascia un commento Annulla risposta

Ultimi articoli aggiornati

Richiedi un preventivo SEO e Google Ads

Non perderti altre guide, iscriviti per ricevere un avviso mensile con gli aggiornamenti del blog!

Informativa sui cookies

Cose da sapere

Googlebot non supporta il crawl-delay

Articoli correlati

Autore

Commenti |2

Lascia un commento Annulla risposta

Ultimi articoli aggiornati

Informativa sui cookies

Non perderti altri articoli