In passato avevo spiegato diverse volte cosa cambia tra scansione e indicizzazione. Nel caso ti fossi perso i riferimenti puoi ripartire leggendo Come indicizzare un sito web su Google e Come funziona Google (Easy Mode).
Ricapitolando in estrema sintesi: la scansione è la prima attività che Googlebot esegue quando trova una nuova pagina, se il contenuto è unico lo indicizza e se il contenuto è ricco di informazioni di qualità lo posiziona meglio degli altri.
Perché ripeto tutto ciò? Semplice, perché Disallow e Noindex agiscono su due momenti diversi del processo che porta una pagina dall’essere trovata dagli spider all’essere posizionata nei risultati di ricerca.

La direttiva Disallow agisce sulla scansione
La direttiva Disallow è da inserire nel Robots.txt e richiede agli spider di non scansionare quella pagina. Una pagina non scansionata può comunque essere indicizzata, ad esempio se questa viene linkata da altri siti web o condivisa sui social network (in pratica se appare nel link graph).
Disallow: /pagina-da-non-scansionare
Con la direttiva Disallow la pagina potrà quindi apparire nei risultati di Google come puoi vedere nella seguente immagine.

Il meta tag Noindex agisce sull’indicizzazione
Il meta tag Noindex agisce a livello di indicizzazione. Quando Googlebot scansiona la pagina e trova il tag meta Noindex la rimuove dal suo indice.
La pagina con meta tag Noindex non potrà quindi apparire nei risultati di Google.
<!-- Per impedire alla maggior parte dei motori di ricerca di indicizzare la pagina -->
<meta name="robots" content="noindex">
<!-- Per impedire solo a Google di indicizzare la pagina -->
<meta name="googlebot" content="noindex">
<!-- Se devi specificare più crawler singolarmente -->
<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">
Disallow e noindex insieme? Un grave errore
Mai usare disallow insieme a noindex! Se applichi la direttiva Disallow sulla pagina X, gli spider non potranno scansionare la pagina. Se sulla stessa pagina X inserisci anche un meta tag Noindex gli spider non saranno in grado di individuarla dato che non potranno nemmeno scansionare (leggere) quella pagina. Quindi stai attento a questo errore:
- per rimuovere una pagina dai risultati di Google inserisci il meta tag Noindex
- per risparmiare crawl budget evitando che Googlebot scansioni una pagina (o meglio una sezione, URL con un dato parametro, etc) usa la direttiva Disallow inserita nel Robotos.txt
elio
riguardo questo paragrafo: Disallow e noindex insieme? Un grave errore.
Ma se un webmaster non vuole che una pagina venga indicizzata, a cosa serve che google la scansioni?
Giovanni Sacheli
Ciao Elio, con il disallow Googlebot non scansionerebbe la pagina e quindi non leggerebbe la tag noindex.
Ben
Complimento per l’articolo.
Ho una serie di dubbi sule questioni no index e robot txt.
Spiego il mio caso:
-un sito, per cui sto gestendo un certo numero di campagne adwords, ha, per ogni campagna, una landing specifica (landing chiusa, senza link e solo info e form contatto).
-Non voglio che queste landing vengano fuori tra i risultati organici, ma usate unicamente per attività ads.
-che fare? usare robot txt per tutte quante?
-Visto che si tratta di un sito wp ed è installato yoast, ha senso impostare, per ogni singola landing “non consentire ai motori di mostrare la pag nei risultati “, insieme a “i motori di ricerca NON dovrebbero seguire questo link” ?
-In ogni caso dando queste direttive rischio di bloccare anche l’adsbot google (che invece vorrei attivo su queste pagine)?
-altre soluzioni possibili?
Spero di essere stato chiaro
Giovanni Sacheli
Buonasera Bernardo, grazie per il commento.
Come avrà capito leggendo questa guida, il metodo corretto per non far apparire una pagina nei risultati dei motori di ricerca è usare la tag NOINDEX. La direttiva Disallow impedisce la scansione dei bot, ma non influisce direttamente sull’indicizzazione.
Con la tag NOINDEX non blocca alcun bot, quantomeno adsbot.
Non usi in alcun caso Disallow + NOINDEX perché gli spider, bloccati dal robots.txt, non potrebbero leggere la tag NOINDEX nell’HTML.
A presto!
Ben
Ricevuto, grazie della risposta.
Marco
Articolo molto interessante.
Se invece noto del traffico al mio sito su una pagina che non esiste più (da poco tempo ma alcune anche da molto tempo, o addirittura a file .pdf che erano contenuti in essa o in una directory) come faccio a dire a google di smetterla di mostrarla nei risultati? se esistesse dovrei usare il noindex, ma dato che la pagina non esiste più e restituisce una custom 404 (con anche codice 404) perchè google si ostina a mostrarla nei risultati?
Nel robots ho specificato di non scansionare le directory contenenti files .pdf etc. ma spesso mi trovo comunque traffico da google diretto verso i file, mentre io vorrei indicizzare solo le pagine che contengono tali file e non i pdf singoli.
anche in questo caso, una volta che io uso il robots per impedire di scansionare la directory con i pdf, come “cancello” dai risultati di google un’indicizzazione precedente?
Google dice che se un loro risultato porta a una pagina 404 automaticamente viene rimosso…come ragionamento funziona ma spesso noto che non è così.
Pareri?
Giovanni Sacheli
Ciao Marco, grazie per la domanda.
Peri PDF puoi impostare il web server ad usare l’intestazione HTTP noindex.
Ad ogni modo, se metti il disallow su quegli URL google non potrà vedere lo status code 404, ti consiglio di lasciare il robots aperto in modo che Googlebot possa entrare e vedere che i file non ci sono più.
Con i 404 devi avere pazienza. Lasciali attivi, con il tempo Google toglierà quelle pagine dall’indice. Se vuoi provare a velocizzare usa lo status code 410.