Skip to content

Google è un motore di ricerca e come tale naviga, scansiona ed indicizza pagine web ma non solo, anche immagini, file Excel, Word e PDF.

Da consulente SEO sconsiglio quasi sempre l’utilizzo esclusivo dei PDF. Per esclusivo intendo che una risorsa è presente soltanto in PDF. Un file in formato PDF può includere meno meta dati rispetto ad una pagina web, è più difficile da gestire ed ottimizzare in ottica SEO.

Quindi è meglio avere in primis la pagina web, e se proprio vuoi, rendi scaricabile per gli utenti una copia in PDF.

I PDF possono creare duplicazioni segnalate in GSC

In questo sito web ho caricato alcuni file PDF relativi a Google e l’indicizzazione, PDF che tengo come riferimento per quando mi serve rileggerli e non voglio stare a cercarli online. Google ha trovato quei PDF e li segnala nel report Coverage di Google Search Console come risorse duplicate senza rel canonical indicato.

Come mai? perché quei PDF Google li ha già trovati online e sono già stati indicizzati, riconosce giustamente i miei PDF come una copia da escludere dall’indice.

I pdf possono creare duplicazioni segnalate in GSC

Tuttavia, buona parte dei PDF è indicizzata, basta una ricerca con i giusti operatori di ricerca per trovarli:

filetype:pdf site:evemilano.com
Come trovare i PDF indicizzati
Come trovare i PDF indicizzati

Questo è un caso ma ne esistono moltissimi. Mi capita di fare consulenze a siti web che hanno tonnellate di PDF indicizzati, magari contenuti duplicati di pagine web e quindi di basso valore. In altri casi i PDF si accumulano diventando obsoleti e nasce la necessità di tenere ordine, fare pulizia e rimuovere i vecchi PDF da Google.

Cosa significa rimuovere un file da Google?

Rimuovere un file da Google significa deindicizzare la risorsa in modo che non sia più ricercabile e raggiungibile dai motori di ricerca.

Come deindicizzare un PDF da Google

Come procederesti? Se la prima cosa che ti è venuta in mente per rimuovere un PDF da Google è quella di usare la direttiva disallow nel robots.txt, be sei sulla strada sbagliata, sebbene questa sia la modalità più diffusa tra i webmaster alle prime armi.

Come ho detto mille volte, il robots.txt non gestisce l’indicizzazione ma la scansione. Un PDF indicizzato non viene deindicizzato perché il suo percorso viene escluso da un disallow nel robots.txt.

Il metodo corretto per eliminare una risorsa da Google è usare la direttiva NOINDEX.

E come aggiungo un noindex ad un PDF?

Conosci l’intestazione HTTP? Quel pacchettino di dati che si scambiano client e server prima di trasmettersi i file? Ecco, il tag noindex può anche essere inserito come direttiva HTTP X-Robots-tag.

Ecco i passaggi da seguire per rimuovere i PDF da Google:

  • Aggiungi il tag x-robots noindex alle intestazioni HTTP del file PDF.
  • Verifica che il tag x-robots noindex sia stato applicato.
  • Usa URL inspector di Google Search Console su i PDF per avvisare Google.
  • Richiedi a Google di eseguire la scansione / indicizzazione del tuo PDF
  • Attendi che i file PDF vengano eliminati dall’indice.

Come modificare l’intestazione HTTP in Apache e Nginx

Per questo aspetto avevo già scritto una guida: Come funziona l’Intestazione HTTP X-Robots-Tag Noindex, in fondo alla pagina trovi le istruzioni per configurare Apache e Nginx.

Quando avrai apportato la modifica al web server, se avrai fatto tutto correttamente, l’intestazione HTTP dei tuoi file PDF conterrà x-robots-tag: noindex. Ora richiama Googlebot su quei file e lentamente inizieranno a venire deindicizzati.

Come modificare l'intestazione HTTP in Apache e Nginx

That’s it.

Anche tu usi questo sistema per non indicizzare i file PDF oppure hai altre tecniche da consigliare? Lascia un commento!

Articoli correlati

31 min lettura

La corretta gestione SEO di paginazioni e archivi richiede un approccio tecnico aggiornato dopo la deprecazione dei tag rel=next e rel=prev. Linee guida per sviluppatori su come strutturare elenchi numerati, ridurre i livelli di navigazione ed evitare errori critici di crawling.
38 mi piace
14 min lettura

L'analisi del rendering di un sito web da parte di Googlebot è essenziale per diagnosticare criticità di indicizzazione. Metodi tecnici per verificare l'esecuzione di JavaScript e l'interpretazione del DOM, garantendo che il motore processi correttamente ogni singola pagina web.
38 mi piace
11 min lettura

Analisi tecnica delle architetture in JavaScript e impatto sulla SEO. Confronto tra server-side rendering (SSR) e client-side rendering (CSR) per ottimizzare il rendering budget, risolvere problemi di indicizzazione e bilanciare metriche vitali come FCP, TTI e TTFB.
16 mi piace

Autore

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Ultimi articoli aggiornati

17 min lettura

Configurare il file robots.txt secondo il Robot Exclusion Protocol permette di governare il traffico dei bot e ottimizzare il crawl budget. Analisi tecnica della sintassi e delle direttive di scansione, distinguendo il controllo del crawling dalle regole di indicizzazione noindex.
4 mi piace
54 min lettura

Superare i limiti dei tool GUI analizzando i dati grezzi da riga di comando. Utilizza pipeline CLI con curl, jq e awk per ispezionare header HTTP, log server e catene di redirect, costruendo audit SEO tecnici riproducibili e output deterministici direttamente dal terminale.
3 mi piace

Richiedi un preventivo SEO e Google Ads

Porta il tuo sito web al livello successivo con l’esperienza di EVE Milano. La nostra agenzia di Search Marketing ha ricevuto oltre 1207 richieste di preventivo, un segnale chiaro della fiducia che imprenditori e manager, come te, ripongono nella nostra specializzazione tecnica e verticale nella SEO e PPC. Se la tua organizzazione cerca competenze specifiche per emergere nei risultati di Google, noi siamo pronti a fornire quel valore aggiunto. Richiedi un preventivo ora e scopri la differenza tra noi e gli altri.
Richiedi un preventivo

Vuoi ricevere un avviso al mese con le nuove guide pubblicate?

Iscriviti alla newsletter!