Google è un motore di ricerca e come tale naviga, scansiona ed indicizza pagine web ma non solo, anche immagini, file Excel, Word e PDF.
Da consulente SEO sconsiglio quasi sempre l’utilizzo esclusivo dei PDF. Per esclusivo intendo che una risorsa è presente soltanto in PDF. Un file in formato PDF può includere meno meta dati rispetto ad una pagina web, è più difficile da gestire ed ottimizzare in ottica SEO.
Quindi è meglio avere in primis la pagina web, e se proprio vuoi, rendi scaricabile per gli utenti una copia in PDF.
I PDF possono creare duplicazioni segnalate in GSC
In questo sito web ho caricato alcuni file PDF relativi a Google e l’indicizzazione, PDF che tengo come riferimento per quando mi serve rileggerli e non voglio stare a cercarli online. Google ha trovato quei PDF e li segnala nel report Coverage di Google Search Console come risorse duplicate senza rel canonical indicato.
Come mai? perché quei PDF Google li ha già trovati online e sono già stati indicizzati, riconosce giustamente i miei PDF come una copia da escludere dall’indice.
Tuttavia, buona parte dei PDF è indicizzata, basta una ricerca con i giusti operatori di ricerca per trovarli:
filetype:pdf site:evemilano.com
Questo è un caso ma ne esistono moltissimi. Mi capita di fare consulenze a siti web che hanno tonnellate di PDF indicizzati, magari contenuti duplicati di pagine web e quindi di basso valore. In altri casi i PDF si accumulano diventando obsoleti e nasce la necessità di tenere ordine, fare pulizia e rimuovere i vecchi PDF da Google.
Cosa significa rimuovere un file da Google?
Rimuovere un file da Google significa deindicizzare la risorsa in modo che non sia più ricercabile e raggiungibile dai motori di ricerca.
Come deindicizzare un PDF da Google
Come procederesti? Se la prima cosa che ti è venuta in mente per rimuovere un PDF da Google è quella di usare la direttiva disallow nel robots.txt, be sei sulla strada sbagliata, sebbene questa sia la modalità più diffusa tra i webmaster alle prime armi.
Come ho detto mille volte, il robots.txt non gestisce l’indicizzazione ma la scansione. Un PDF indicizzato non viene deindicizzato perché il suo percorso viene escluso da un disallow nel robots.txt.
Il metodo corretto per eliminare una risorsa da Google è usare la direttiva NOINDEX.
E come aggiungo un noindex ad un PDF?
Conosci l’intestazione HTTP? Quel pacchettino di dati che si scambiano client e server prima di trasmettersi i file? Ecco, il tag noindex può anche essere inserito come direttiva HTTP X-Robots-tag.
Ecco i passaggi da seguire per rimuovere i PDF da Google:
- Aggiungi il tag x-robots noindex alle intestazioni HTTP del file PDF.
- Verifica che il tag x-robots noindex sia stato applicato.
- Usa URL inspector di Google Search Console su i PDF per avvisare Google.
- Richiedi a Google di eseguire la scansione / indicizzazione del tuo PDF
- Attendi che i file PDF vengano eliminati dall’indice.
Come modificare l’intestazione HTTP in Apache e Nginx
Per questo aspetto avevo già scritto una guida: Come funziona l’Intestazione HTTP X-Robots-Tag Noindex, in fondo alla pagina trovi le istruzioni per configurare Apache e Nginx.
Quando avrai apportato la modifica al web server, se avrai fatto tutto correttamente, l’intestazione HTTP dei tuoi file PDF conterrà x-robots-tag: noindex. Ora richiama Googlebot su quei file e lentamente inizieranno a venire deindicizzati.
That’s it.
Anche tu usi questo sistema per non indicizzare i file PDF oppure hai altre tecniche da consigliare? Lascia un commento!