Skip to content

Sapevi che il meta tag robots noindex può essere dichiarato anche attraverso l’intestazione HTTP senza inserire il meta robots nel codice HTML?

Cosa sono gli HTTP headers? Gli HTTP headers, intestazioni HTTP, trasmessi attraverso il protocollo HTTP, sono informazioni prodotte durante la comunicazione tra il browser del client che invia delle richieste e il server che le raccoglie e invia delle risorse in risposta.

L’intestazione X-Robots-Tag noindex può essere utilizzata come elemento della risposta dell’intestazione HTTP per un determinato URL. Le istruzioni utilizzabili in un meta tag robots possono essere specificate anche come X-Robots-Tag.

Di seguito è riportato un esempio di risposta HTTP con un’intestazione X-Robots-Tag che comunica a Googlebot di applicare nofollow su tutti i link in pagina. Metre otherbot non dovrà nemmeno indicizzare la pagina oltre a non seguire i suoi link.

Le istruzioni specificate senza user-agent sono valide per tutti i crawler.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

Tramite intestazione HTTP è impossibile inviare a Google diverse direttive disponibili con i tag meta robots, come ad esempio:

  • notranslate – non proporre la traduzione della pagina nei risultati di ricerca.
  • unavailable_after: [RFC-850 date/time] – Non mostrare questa pagina nei risultati di ricerca dopo la data/l’ora specificata. La data/l’ora deve essere specificata nel formato RFC 850.

Utilizzi?

Ti è mai capitato di dover impedire l’indicizzazione di tutti i file .pdf che hai sul webserver? Oppure le immagini… Ecco che torna utile usare le intestazioni HTTP X-Robots.

Come implementare l’intestazione X-Robots-Tag noindex per PDF

Nginx

Devi definire la cartella nel web server che contiene i pdf. Usa il comando location, e al suo interno inserisi il tag x-robots con le direttive che preferisci.

location ~ .*/(?:pdf)/.* {
    add_header X-Robots-Tag "noindex, follow" always;      
}

La riga deve essere aggiunta nel blocco di configurazione del sito web, di solito in /etc/nginx/sites-avalable/sito_web.

Se non hai una cartella specifica che contiene i pdf, puoi definire la tipologia di file.

location ~* \.(pdf|txt|log|xml|css|js)$ {
    add_header X-Robots-Tag noindex, nofollow;
}

Valuta cosa aggiungere nel tuo file di configurazione: non copiare e incollare lo script, magari ti serve solo il nofollow.

Apache

# Per aggiungere un'intestazione X-Robots-Tag di tipo noindex, 
# nofollow alla risposta HTTP per tutti i file .PDF del sito, 
# aggiungi il seguente snippet al file .htaccess o httpd.conf principale del sito:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

# Puoi utilizzare l'intestazione X-Robots-Tag per i file 
# non HTML come i file immagine in cui non è possibile 
# utilizzare i meta tag robot. Di seguito è riportato 
# un esempio di aggiunta di un'istruzione X-Robots-Tag 
# di tipo noindex per tutti i file immagine (.png, .jpeg, .jpg, .gif) del sito:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

Il supporto delle espressioni regolari consente un elevato livello di flessibilità.

Approfondimenti

Articoli correlati

Autore

Commenti |4

Lascia un commento Lascia un commento
  1. RobyGola 2 commenti

    Grazie Giò, ottima anche la guida linkata in mezzo :)

    Immagino non si possa implementare X-Robots in un server condiviso (shared hosting)?

    1. Giovanni Sacheli 754 risposte

      Dipende Roby, è abbastanza raro che su un hosting condiviso si dia accesso al file .htaccess ma alcuni lo permettono.

  2. Cris Pellecchia 2 commenti

    Ciao Giovanni, è possibile utilizzare l’X-Robots Tag in file .htaccess per impedire l’indicizzazione di file html, come ad esempio, un’intera categoria di un sito o un’intera sezione blog?
    Inoltre, è possibile utilizzare lo stesso Tag per impedire l’indicizzazione di una sola pagina di un sito web?

    Grazie :)

    1. Giovanni Sacheli 754 risposte

      Ciao Cris, certo che si può, è anche indicato in questa guida sotto la sezione Apache. Devi solo cambiare .pdf con .html ed editare il file htaccess nella cartella che vuoi de-indicizzare.

      
      <Files ~ "\.html$">
        Header set X-Robots-Tag "noindex, nofollow"
      </Files>
      

      Se le pagine non hanno estensione .html dovrai usare le Regex.
      Per le singole pagine invece puoi elencare il path relativo di ciascuna pagina:

      
      <Files mypage.html>
      

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Ultimi articoli aggiornati

Richiedi un preventivo SEO e Google Ads

Porta il tuo sito web al livello successivo con l’expertise di EVE Milano. La nostra agenzia di Search Marketing ha ricevuto oltre 1123 richieste di preventivo, un segnale chiaro della fiducia che imprenditori e manager, come te, ripongono nella nostra specializzazione tecnica e verticale nella SEO e PPC. Se la tua organizzazione cerca competenze specifiche per emergere nei risultati di Google, noi siamo pronti a fornire quel valore aggiunto. Affidati alla nostra esperienza per fare la differenza.
Richiedi un preventivo

Non perderti altre guide, iscriviti per ricevere un avviso mensile con gli aggiornamenti del blog!

Iscriviti alla newsletter!

Informativa sui cookies

Noi e terze parti selezionate utilizziamo cookie o tecnologie simili per finalità tecniche e, con il tuo consenso, anche per le finalità di esperienza e misurazione come specificato nella cookie policy. Puoi liberamente prestare, rifiutare o revocare il tuo consenso, in qualsiasi momento, accedendo al pannello delle preferenze. Il rifiuto del consenso può rendere non disponibili le relative funzioni. Usa il pulsante “Accetta” per acconsentire. Usa il pulsante “Rifiuta” per continuare senza accettare.