Come verificare la correttezza di una Sitemap.xml

Dopo aver creato una sitemap.xml la cosa migliore da fare è verificarla. La sitemap.xml di un sito web è un elemento molto importante da tenere curato, verificarne la correttezza sintattica e la completezza è un’attività necessaria quando si svolge un SEO Audit.

TL;TR

Per verificare la correttezza di una sitemap.xml la prima cosa che faccio e scansionare il sito web per contare il numero di URL canonici, unici, che vengono dati in pasto a Google per essere indicizzati. Trovo il conteggio totale delle pagine indicizzabili nel sito web mi segno questo valore.

Poi scarico la sitemap.xml e la passo in Screaming Frog. Verifico quante pagine sono inserite con status code 200 e canonical unico, quindi le pagine realmente indicizzabili dai motori di ricerca. Confronto il conteggio con il valore della scansione, eventuali differenze sono da approfondire per capire se esiste un problema o no.

Successivamente, in un file Excel creo due fogli: nel primo foglio metto i dati esportati dalla scansione del sito e nel secondo foglio metto i dati di scansione della sitemap.xml. Con la funzione cerca verticale – Vertical lookup usata su entrambi i fogli, confronto i dati.

Parto dai dati di scansione e con la vertical lookup verifico se ci sono URL indicizzabili non inseriti in sitemap.xml.

Poi analizzo i dati della sitemap.xml per verificare se ci sono URL che non ho trovato durante la scansione.

L’ultimo controllo è per verificare eventuali 404 in sitemap.xml da rimuovere o correggere.

Per quanto riguarda il formato e la sintassi corretta della sitemap.xml ti rimando a questa guida, oggi invece ti mostrerò come controllare con Excel e Screaming Frog la completezza della Sitemap.xml, ovvero se la sitemap contiene tutti gli URL che ci si aspetterebbe, il tutto in due semplice passaggi:

Verificare che tutti gli URL in Sitemap.xml siano raggiungibili
Verificare che tutte le pagine navigabili siano inserite in sitemap.xml

Prepara i dati per l’analisi

Inizia facendo crawling delle sole pagine HTML del sito web, escludi quindi le immagini, CSS e JavaScript. Io uso Screaming Frog ma puoi usare qualsiasi crawler.

A processo terminato estrai i dati in Excel e tieni solo la lista di URL ed eventualmente lo Status Code. Ho chiamato il foglio Excel “crawl”.

Come esportare le pagine di crawling in Excel

Ora naviga sul sito in esame e salva in locale il file sitemap.xml. Verifica ora il file con Screaming Frog in modalità List. Una volta che il processo di crawling sarà terminato esporta in un altro foglio Excel le colonne URL e Status Code. Ho chiamato il foglio Excel “sitemap”.

Verificare la sitemap.xml con Screaming Frog

A questo punto dovresti avere due fogli Excel, Crawl con i risultati di Crawling del sito e Sitemap che contiene la verifica della Sitemap.xml. Passa a verificare che tutto sia al posto giusto!

Verifica che la Sitemap.xml contenga tutti gli URL corretti

Andiamo sul foglio Excel sitemap e nella cella a destra di ogni URL inseriamo la funzione VLOOKUP impostando la ricerca sul foglio crawl.

La formula che uso in questo caso è = VLOOKUP(A2;Crawl!A:A;1;0).

Questa funzione controlla che tutti gli URL elencati in Sitemap siano anche elencati nel file di crawling. In caso affermativo Excel mostrerà l’URL, in caso negativo riceverai l’errore #N/A.

Possibili problemi e risoluzioni:

in Sitemap.xml sono elencati URL non esistenti con status code 4xx o 5xx. Aggiornare la sitemap rimuovendo o correggendo gli URL errati.
in Sitemap.xml sono presenti URL con status code 200 ma che il crawler non ha rilevato. Verificare il percorso di navigazione del sito web, il menu e link interni. Tutte le pagine elencate in sitemap devono essere raggiungibili dall’utente finale navigando il sito.

Verifica che tutte le pagine navigabili siano contenute in Sitemap

Andiamo sul foglio Excel crawl e ripetiamo il processo appena svolto ma riferiamoci al foglio sitemap con la funzione VLOOKUP.

La formula che uso in questo caso è =VLOOKUP(A3;sitemap!A:A;1;0)

Se la funzione VLOOKUP trova una referenza allora vuol dire che l’URL navigabile è anche in sitemap, se la funzione restituisce un errore #N/A significa che quell’URL non è contemplato in sitemap.xml

Possibili problemi e risoluzioni:

nel foglio di crawling sono presenti URL con status code 4xx o 5xx. Verificare e correggere i link interni
nel foglio di crawling sono presenti URL con status code 200 ma non presenti in sitemap. Perchè non sono inseriti? Necessità o dimenticanza? Sono pagine Noindex oppure dovrebbero essere indicizzate? Correggi la sitemap all’occorrenza.

Tu come verifichi la Sitemap.xml? Hai consigli, critiche o aggiunte da proporre? Lascia un messaggio, al resto ci penso io ;)

Autore

Giovanni Sacheli Consulente Search Marketing @Eve Milano

Mi chiamo Giovanni Sacheli, sono un appassionato professionista del Search Marketing, specializzato in SEO e PPC. Da oltre un decennio, mi dedico all'ottimizzazione dei siti web a livello internazionale. Come consulente, relatore e professore, dal 2010, mi impegno a migliorare la visibilità online e il traffico web delle aziende. Attualmente, gestisco Searcus Swiss Sagl, una micro agenzia svizzera focalizzata sul Search Marketing. Sono co-autore del "libro SEO Audit Avanzato" e curo con dedizione evemilano, un blog di riferimento nel settore dove condivido guide e tutorial avanzati per consulenti, webmaster e addetti ai lavori. La mia passione non si limita al lavoro: amo la tecnologia, i viaggi in moto e sono un fiero NERD degli anni '80, nonché orgoglioso papà di due meravigliosi bambini.

Ciao Elena, grazie per aver lasciato questo commento interessante, credo possa tornare utile anche ad altre persone.

In quanto mi descrivi vedo due macro problematiche: la navigazione e la canonicalizzazione delle risorse (che parolone).

Navigazione: come regola generale per una corretta struttura tutte le pagine del sito web (quindi anche della sitemap.xml) devono poter essere raggiunte dalla homepage cliccando link (tag a), possibilmente non più di 4 volte. Nel tuo caso Screaming Frog trova poche pagine perché probabilmente la maggior parte dei prodotti e/o categorie si raggiungono solo via filtro, oppure usi la navigazione in AJAX/JS e non hai abilitato il render su Screaming Frog. Ricorda che Googlebot non compila form e non esegue azioni che non siano seguire link. Sicuramente rivedrei i link interni in modo da aprire la strada a bot e utenti e magari verificare i livelli di navigazione.

Canonicalizzazione: con questo termine si intende fare pulizia nel database di Google da tutti quegli URL che non hanno contenuto unico (o desiderato). Ad esempio in un sito eCommerce le pagine di listing filtrate con URL parametrizzati generano duplicazioni. L’URL sitoweb.it/scarpe?ordina=prezzo ha una parte del contenuto della pagina sitoweb.it/scarpe, non è una pagina “originale”. Nel tuo caso mi sembra di capire che Google indicizzi più pagine di quelle che dovrebbe, quindi la prima domanda che ti faccio è: il tag rel canonical è implementato? E’ corretto? La seconda domanda è: i parametri sono gestiti in Google Search Console? Potresti escludere dalla scansione in GSC gli URL con filtri di ordinamento o selezione, lascia ovviamente quelli di traduzione e paginazione.

Fammi sapere :) buon lavoro!

Informativa sui cookies

Noi e terze parti selezionate utilizziamo cookie o tecnologie simili per finalità tecniche e, con il tuo consenso, anche per le finalità di esperienza e misurazione come specificato nella cookie policy. Puoi liberamente prestare, rifiutare o revocare il tuo consenso, in qualsiasi momento, accedendo al pannello delle preferenze. Il rifiuto del consenso può rendere non disponibili le relative funzioni. Usa il pulsante “Accetta” per acconsentire. Usa il pulsante “Rifiuta” per continuare senza accettare.

Commenti |8

Lascia un commento

Elena 13 commenti

11/04/2016 alle 15:28

Buongiorno Giovanni,
lei ha scritto in questo post che “Tutte le pagine elencate in sitemap devono essere raggiungibili dall’utente finale navigando il sito.”
Vorrei capirne il motivo.
Mi è capitato di lavorare su alcuni siti web in cui alcune pagine (o post) erano presenti in sitemap.xml, ma non erano raggiungibili lato front-end (le pagine erano state effettivamente pubblicate, ma non inserite nel menù).
La sua affermazione immagino riguardi il modo in cui Google potrebbe interpretare un’azione di questo tipo (contenuti creati per i motori di ricerca, non per l’utente finale). Sbaglio?
Grazie mille.

Rispondi
1. Giovanni Sacheli 756 risposte
  
  11/04/2016 alle 17:55
  
  Buongiorno Elena, grazie per aver lasciato il tuo commento :)
  In genere tutte le pagine del sito devono poter essere raggiungibili, se una pagina non è raggiungibile dall’utente finale navigando il sito vuol dire che quella pagina non ha link interni.
  Una pagina senza link interni è praticamente nascosta ad utenti e bot, vive solo di segnali esterni come backlink, condivisioni, annunci PPC, preferiti del browser, …
  Ha senso non linkare pagine usate appunto come landing page PPC (che di solito non brillano per contenuti e tendo a non indicizzare), ma secondo me non avrebbe senso farlo per altre pagine di valore del sito.
  
  Rispondi

Come verificare la correttezza di una Sitemap.xml

TL;TR

Prepara i dati per l’analisi

Verifica che la Sitemap.xml contenga tutti gli URL corretti

Possibili problemi e risoluzioni:

Verifica che tutte le pagine navigabili siano contenute in Sitemap

Possibili problemi e risoluzioni:

Autore

Commenti |8

Lascia un commento Annulla risposta

Ultimi articoli aggiornati

Richiedi un preventivo SEO e Google Ads

Non perderti altre guide, iscriviti per ricevere un avviso mensile con gli aggiornamenti del blog!

Informativa sui cookies

TL;TR

Prepara i dati per l’analisi

Verifica che la Sitemap.xml contenga tutti gli URL corretti

Possibili problemi e risoluzioni:

Verifica che tutte le pagine navigabili siano contenute in Sitemap

Possibili problemi e risoluzioni:

Autore

Commenti |8

Lascia un commento Annulla risposta

Ultimi articoli aggiornati

Informativa sui cookies

Non perderti altri articoli