Skip to content

Il tuo sito non è indicizzato?

Prima di iniziare la lettura ti faccio una domanda, conosci la differenza tra indicizzazione e scansione? Se la tua risposta fosse negativa potrebbe interessarti questa guida che spiega in modo semplice come funziona Google. Capire le varie fasi che portano una pagina nei risultati di ricerca è fondamentale per individuare eventuali problematiche.

Essere indicizzati da Google è davvero semplice e nella maggior parte dei casi non dovrai fare niente di particolare. Puoi trovare online centinaia di guide che spiegano come aiutare gli spider dei motori di ricerca a mostrare le tue pagine in SERP, anche Google ha pubblicato la sua guida ufficiale.

Il problema opposto invece non è così semplice da risolvere, ovvero quando il tuo sito NON è indicizzato. Bisogna imparare a conoscere tutti i fattori che possono bloccare l’indicizzazione per trovare il colpevole.

Ti consiglio di aggiornarti costantemente sull’argomento, in quanto si presentano continuamente nuovi tecnicismi da considerare.

Fattori che possono bloccare l’indicizzazione

Ci possono essere siti particolari e situazioni specifiche che rendono la vita difficile a Google, tuttavia in questa guida mi limito ad elencare i casi più comuni e frequenti che impediscono l’indicizzazione di una pagina o interni siti web:

  • Robots.txt chiuso: la prima cosa che controllo in un sito web è il suo file Robots.txt, ovvero il file che gestisce gli accessi degli spider al sito. Spesso i webmaster si dimenticano online il Robots.txt di sviluppo, completamente chiuso, impedendo quindi a qualsiasi spider di scansionare le pagine del sito e quindi di indicizzarle. Un esempio di Robots.txt chiuso è “User-agent: * Disallow: /”. Tramite Google Search Console puoi testare il tuo file Robots.txt.
  • Meta tag noindex: verifica se nel codice HTML del tuo sito è presente il tag noindex (<meta name=”robots” content=”noindex,follow”/>). Questa tag dice espressamente ai motori di ricerca di NON indicizzare la pagina. Se il tag è distribuita site-wide tutto il sito risulta non indicizzabile.
  • Comando Noindex nell’HTTP header: il tag noindex può essere inserita anche nell’intestazione HTTP e quindi non è visibile nel codice HTML. Per verificare questa situazione si possono usare i lettori di HTTP Header, come questo ad esempio.
  • Link in JavaScript e Ajax: sebbene Google sia molto migliorato nell’interpretare siti in JavaScript, può capitare che decida di non indicizzare link oppure intere pagine. Per aiutare Google a scoprire naturalmente tutti i contenuti del sito consiglio 1) di implementare sempre classici link in HTML e 2) utilizzare le best practice per aiutare Google ad indicizzare JavaScript correttamente.
  • Alcuni tipi di link in Flash: idem come sopra. Flash non è il linguaggio ideale da usare per siti Google Friendly.
  • Silverlight: Google necessita di alcuni accorgimenti per indicizzare correttamente contenuti di applicazioni dinamiche sviluppate con Silverlight.
  • Iframe: Google supporta frame ed iframe ma cito quanto dichiarato “I frame possono causare problemi ai motori di ricerca perché non sono in linea con il modello concettuale del web. In questo modello una pagina visualizza un solo URL. Le pagine che utilizzano frame o iframe visualizzano diversi URL (uno per ciascun frame) in una stessa pagina. Google cerca di associare i contenuti del frame con la pagina contenente i frame, ma non garantisce che questo verrà fatto.
  • Canonical Tag: se la pagina A contiene un rel canonical che punta alla pagina B, Google potrebbe decidere di indicizzare soltanto la pagina B.
  • Redirect: se le pagine del tuo sito vengono redirezionate (ad esempio con redirect 301) verso un altro dominio, Google potrebbe decidere di rimuovere quelle pagine dal suo indice e mostrare in SERP soltanto le pagine di destinazione, ovvero quelle a cui si viene redirezionati.
  • Errori 4xx e 5xx persistenti: se una pagina restituisce uno status code di errore per un tempo prolungato, Google potrebbe decidere di rimuovere quella pagina dal suo indice.
  • URL rimosso con il Removal Tool di GWMT: in passato hai rimosso un URL con lo strumento dedicato di Google Webmaster?
  • In questa pagina Google spiega come bloccare l’accesso ai contenuti del tuo sito.
  • … Ci sono molti altri casi ma questi sono considerati i più diffusi.

Google mette a disposizione un tool molto utile per verificare come Googlebot interpreta le pagine del nostro sito, si chiama Fetch as Googlebot. Puoi trovare istruzioni per il suo utilizzo in questa pagina.

Perchè alcune pagine non vengono indicizzate?

CausaCome risolvere il problema
Errori nella digitazione dell’URLControlla l’URL che hai scritto, può capitare di sbagliarsi!
Blocco via “robots.txt”Controlla il file Robots.txt per eventuali errori, user-name errati oppure omessi e verifica la direttiva Disallow.
Blocco via “robots” meta directivesVerifica che non ci siano tag meta robots nelle pagine non indicizzate. Molti plugin aggiungono il tag noindex ad importanti pagine come le categorie o addirittura a tutto il sito.
Blocco via “x-robots-tag”La direttiva HTTP X-Robots viene inviata attraverso il file .htaccess (Linux/Apache) oppure dal file “HTTP Response Headers” (Microsoft IIS). La direttiva è inserita nell’intestazione HTTP e può impedire l’indicizzazione di file e pagine intere.
Proteziona con PasswordAssicurati che non ci siamo cartelle intere bloccate da password!
CanonicalizationQuesta tag proposta da Google serve ad aiutare i webmaster a non diluire la forza di un URL in diverse sue possibili copie. L’intenzione è di ridurre le scansioni necessarie e consolidare il PageRank sui siti web dinamici che usano i parametri nell’URL (come la ID sessione e altri criteri di ordinamento o filtraggio.
Blocco User-agentNel web server potrebbero esserci blocchi per specifici user-agent, ad esempio a livello di “.htaccess” oppure “IIS Config” e Robots.txt.

Sebbene la maggior parte dei webmaster inserisca il Robots.txt nella root del web server, devi sapere che è possibile inserirlo anche in specifiche cartelle e sotto-cartelle per gestire le regole di scansione di quella specifica sezione del sito. Se inavvertitamente hai bloccato un folder, troverai nel log del web server il messaggio di errore: “Error 403 (Forbidden)”.

Server timeoutLa scansione potrebbe non andare a buon fine se il server non dovesse rispondere nei tempi previsti. Questo è un problema molto comune dato che la maggior parte dei siti risiede su server condivisi e scadenti, di dubbie società di hosting. Gli hosting low-cost spesso non includono nemmeno le minime misure di sicurezza per proteggere il sito da scraper e bot aggressivi (botnet, strumenti di business intelligence, social media monitoring e motori di ricerca secondari).

A prescindere dalla qualità dell’hosting, il web server permette un numero limitato di connessioni TCP tra client e server. Il protocollo HTTP/1.0 definisce che il web server debba aprire una connessione TCP ad ogni richiesta del browser, la connessione verrà poi chiusa dopo un determinato tempo di inattività. I crawler aggressivi che inviano centinaia o migliaia di richieste al minuto possono effettivamente bloccare qualsiasi richiesta di un visitatore o di un crawler “legittimo”. Questo è essenzialmente il funzionamento di un attacco DDoS.

Il nuovo protocollo HTTP/2.0 dovrebbe ridurre il numero di connessioni simultanee tra web server e client. Ad ogni modo, strumenti di IP spoofing e altre tecniche potrebbero comunque permettere l’attivazione di più connessioni. Prima migreremo all’HTML/2.0 (che ha rimpiazzato il protocollo sperimentale di Google chiamato SPDY) e meglio sarà!

Altri fattori che possono causare il time out del web server sono script malevoli, richieste frequenti per grandi file (video, foto, documenti molto pesanti, ecc) che richiedono molta CPU e processi in background oppure ancora problemi di instabilità server/hardware nel web server.

Non esiste una lista completa di tutte le possibili cause di server time out, ma le cause più frequenti sono crawler aggressivi. Attenzione a bloccare l’accesso ad alcuni IP perchè potresti bloccare per errore lo spider sbagliato!

Redirezioni nascosteTu o qualcuno prima di te potrebbe aver implementato un redirect HTML su una pagina non indicizzata. Questo può essere ottenuto via “.htaccess”, “IIS Config”, PHP oppure nel peggiore dei modi – “HTTP-REFRESH”. Alcune redirezioni possono essere condizionali, redirezionando alcuni spider ma non gli utenti. Verifica cambiando user-agent al tuo browser.
Blocco via “nofollow” directivesL’attributo rel=”nofollow” dei link e dei meta tag possono essere usati per dire ai crawler di non seguire i link. Se per il crawler l’unico modo di raggiungere una data pagina è quel link taggato nofollow allora non potrà leggerla.
linking interno deboleNei siti con molte pagine può capitare di avere contenuti che ottengono pochi link interni. Pochi link interni rendono la pagina difficile da scovare da parte dei crawler ed in genere i motori di ricerca assegnano meno priorità di scansione alle pagine poco linkate internamente.
Navigazione interna rottaGli errori di navigazione interna sono tra i più frequenti e possono seriamente compromettere l’indicizzazione del sito web. Verifica e correggi gli errori 3xx, 4xx e 5xx per assicurare una corretta navigazione e la distribuzione del PageRank tra le pagine.
pochi backlinkUn sito con pochi backlink potrebbe avere un basso crawl budget e quindi i motori di ricerca assegnerebbero poche risorse alla scansione delle sue pagine.
Penalizzazioni a livello di paginaUn sito compromesso con malware, keyword stuffing o molti link SPAM potrebbe venire scansionato meno di frequente dai crawler.
Errori nel codice HTMLIn genere gli errori HTML non pregiudicano l’indicizzazione ma ci sono casi a cui bisogna stare attenti. Contenuti nascosti, elementi posizionati male via CSS o situazioni comparabili al cloaking potrebbero non venire indicizzate dai motori di ricerca.
Errori di scansioneUn file .htaccess configurato male, codice Perl o PHP errato, un link scritto sbagliato o qualsiasi cosa che possa generare un errore di navigazione sono da evitare.
Modifica IP dei datacenterConsiglio di non modificare il file host del tuo pc per impostare l’IP dei datacenter di Google perchè potrebbero cambiare da un momento all’altro e finiresti per interrogare server spenti o che fanno tutt’altro.
Contenuto personalizzatoIn alcuni casi i CMS generano i contenuti usando informazioni in real-time e personalizzando le pagine – come la località dell’utente, la lingua, la piattaforma, il sistema operativo oppure ricerche sul sito. Queste pagine se non sono correttamente linkate ed inserite nella struttura del sito non potranno essere trovate dagli spider.
Dominio penalizzatoPuò capitare di registrare un dominio precedentemente penalizzato per pratiche SPAM. I motori di ricerca potrebbero smettere di scansionare un sito reputato come SPAM. Questo è uno dei motivi principali per cui, in alcune nicchie, si tende ad usare sotto-domini per separare nettamente sezioni differenti del sito e circoscrivere eventuali penalizzazioni.


Lascia un commento, critiche o maggiori dettagli da proporre!

Articoli correlati

Autore

Commenti |15

Lascia un commento Lascia un commento
  1. Bruno 1 commento

    Buonasera, essendo un neofita, utilizzatore di WordPress, che fa esperimenti “sulla propria pelle” (il mio sito sul mio dominio personale), mi trovo ad affrontare un problema a cui non so dare risposta plausibile, riguardo agli argomenti SEO/indicizzazioni/Google.
    Dunque: io sono titolare e ho realizzato il sito, ovviamente senza impedirne l’indicizzazione sui motori di ricerca. E naturalmente nel file index.php ho inserito la classica splash “site under construction”; quando il sito sarà completato e vorrò renderlo pubblico al 100%, lo farò puntare alla home esempio.it/it. Oggi ho testato con successo il plugin per la gestione SEO, e va tutto bene, il sito è indicizzato da mesi e regolarmente faccio degli screening. Oggi vedo una notifica sulla console del plugin SEO, che recita “La tua homepage non può essere indicizzata dai motori di ricerca”. Ovviamente non mi quadra e vado a “googlare”, essendo ignorante in materia. Ad un certo punto arrivo in una pagina che mi consiglia di digitare sulla barra di ricerca di google, il nome completo della homepage, ovvero esempio.it/it. Con mia grossa sorpresa, vedo che il primo risultato, se clicco sopra, punta correttamente alla mia homepage, ma la descrizione è “Logos-Golf – Libera organizzazione golfisti Seniores”, che è un sito di cui faccio solo l’amministratore di contenuti e su cui non sono mai andato a toccare il codice. L’unico legame con google che ho è la mail che uso per le comunicazioni di servizio per quel sito, che è una Gmail, e ovviamente è lo stesso account che ho dato per l’indicizzazione del MIO sito su Google Search Console, come anche account di Google+. Ho immaginato che Google prendesse da là il riferimento al sito “logos” associandolo al mio personale, e sono diventato matto a cercare ma non ho trovato nulla nelle impostazioni dell’account. Come anche ho cercato nei meandri del mio sito, ma nulla di nulla. Qualcuno può aiutarmi a capire?

    Grazie.

    1. Giovanni Sacheli 754 risposte

      Buongiorno Bruno, grazie per il commento. Da quanto leggo credo abbia fatto qualche disastro con le redirezioni :) Se apro la sua home vedo ancora l’immagine work in progress, per questo la home non è indicizzabile. Secondo errore, se vuole una sezione in lingua inglese è opportuno avere un dominio con finalità internazionali come il .com, il .it è un ccTLD ovvero un dominio locale in lingua italiana. Terzo errore, la cartella /en/ se proprio proprio la vuole, deve stare nella root e non come sotto-cartella di /it/. Le servirebbe un bel corso SEO base per procedere nel modo migliore!

      A presto e buon lavoro.

  2. Elena 13 commenti

    Ciao Giovanni,
    volevo sapere, se possibile, cosa occorre fare per individuare gli URL delle pagine non indicizzate di un sito: la Search Console ci dice QUANTE pagine sono state indicizzate, ma non QUALI.
    Grazie mille.

    1. Giovanni Sacheli 754 risposte

      Ciao Elena, grazie per il commento interessante. Che io sappia non esiste un operatore di ricerca, oppure un indicatore su Google Search Console che mostri le pagine NON indicizzate. Nel momento in cui mi rendo conto che Google indicizza meno pagine di quelle che dovrebbe uso delle semplici ricerche per identificare queste pagine – interrogo Google per cartelle.

      Ad esempio, se la struttura di URL del sito web utilizza la data come questo blog (o qualsiasi altro pattern ricorrente, come la /categoria/, la /tag/ oppure anche con un ID=XY), posso interrogare Google per sapere quante pagine ha indicizzato in quella cartella e confrontare i dati con una scansione di Screaming Frog. Premesso che sappiamo quante pagine esistono in una data cartella del nostro sito web, non resta che confrontare cosa c’è in pancia a Google. L’operatore di ricerca da utilizzare è site:.

      Come saprai l’operatore site:www.sito.it chiede a Google di mostrare il numero di pagine indicizzate di quel sotto-dominio (www.sito.it è un sotto-dominio di sito.it). La query site:sito.it richiede il conteggio delle pagine indicizzate di tutti i sotto-domini. Più pagine compongono il sito web e maggiore sarà l’approssimazione di Google nel fornire il valore, il site: non è mai un dato certo ma indicativo.

      Mettiamo di voler sapere quante pagine sono state indicizzate nella cartella 2016/11 di questo blog, in Google inserisco la ricerca site:www.evemilano.com/2016/09/. Google in risposta elenca un solo articolo, ed è corretto. Quindi per scoprire le pagine non indicizzate basta eseguire ricerche per cartelle confrontando i dati con quelli di una scansione e, se esistono pagine non indicizzate, prima o poi le trovo.

      Usare gli operatori di ricerca come inurl o meglio ancora -inurl permette di filtrare i risultati includendo (o escludendo) URL con sequenze di caratteri definite. Anche l’operatore di ricerca -filetype:pdf torna utile quando il sito contiene molti file .pdf indicizzati che vogliamo escludere dalla ricerca.

      In alternativa ci sono software che eseguono richieste in successione a Google e ti permettono di verificare l’esistenza della copia cache di una serie di URL. La presenza della copia cache presume che la pagina sia indicizzata, quindi troveresti subito le pagine NON indicizzate di una serie. Il problema di questi software è che non permettono di eseguire troppe richieste dato che Google richiede un codice capcha dopo X richieste. Come al solito il lavoro manuale è quello che rende di più ;)

      Spero di averti aiutata con nuove idee. A presto e buona SEO!

      1. Elena 13 commenti

        Ciao Giovanni,
        grazie mille per la tua ottima (come sempre!) spiegazione.
        A presto.

        Elena

        1. Giovanni Sacheli 754 risposte

          Grazie mille Elena, a presto!

  3. Luca Tricomi 1 commento

    Avevo scritto una guida all’acquisto con diversi link testuali che rimandavano ad Amazon, volendo sfruttarne il programma di affiliazione. La pagina contenente questa guida sembrava correttamente indicizzata, tanto che se digitavo determinate parole chiave su Google, compariva come quindicesimo risultato. Il giorno dopo sono andato a ricontrollare se fosse cambiato qualcosa e inspiegabilmente la pagina in questione, tra i risultati di ricerca, non c’era più. L’ho cercata scorrendo anche nei risultati successivi, ma non l’ho trovata. Quindi chiedo: è possibile che Google (non so per quale motivo) abbia prima indicizzato la pagina e poi rimossa? E in ogni caso: cosa posso fare per farla riapparire?

    1. Giovanni Sacheli 754 risposte

      Ciao Luca grazie per il commento. Le pagine nuove ottengono un boost temporaneo in visibilità, per poi assestarsi alla posizione “stabile”. Nel tuo caso probabilmente la pagina necessità di testi ottimizzati, con più informazioni. Verifica se le pagina è ancora indicizzata con il comando site:. Se è indicizzata non ti resta che rendere il contenuto migliore.

      A presto!

  4. Luigi 1 commento

    Buonasera signor Giovanni, le volevo sottoporre il mio caso (particolare). Utilizzando il comando site:nomesito.it, google mi restituisce molte pagine indicizzate, ma se vado direttamente sul motore e digito (come farebbe un cliente) nomesito.it il mio sito non compare. Esce solo nei suggerimenti (in cima), es: Risultati relativi a…
    Cerca invece……

    Tengo a precisare che il sito è online da 6 giorni.

    1. Giovanni Sacheli 754 risposte

      Buonasera Luigi, i risultati del comando site: le confermano che il sito è indicizzato. Non lo vede nei risultati in prima pagina perché semplicemente non è ancora ben posizionato dato che è molto giovane. Secondo me deve solo avere pazienza ed intanto riempire homepage e pagine con contenuti unici, esaustivi e di qualità.

      A presto!

  5. Ben 6 commenti

    Ciao, complimenti per gli articoli, sempre utili.
    Sto analizzando un sito con search console (postilla: è uno strumento che tempo fa trovavo abbastanza utile, ma con la nuova versione non ne capisco molto l’utilità). Nella nuova versione, appunto controllando la voce “copertura” mi segnala 44 pagine con stato errore.
    Precisamente. mi diche L’URL inviato contiene un tag “noindex” con relativo elenco di pagine. Vado sulle pagine ma non trovo tag noindex nell’html

    Tornando alla vecchia versione non mi vengono segnalati questi errori.

    Il robot txt è impostato come segue
    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php

    Come puoi vedere è un sito wordpress. Le pagine segnalate con errore sono tutte pagine del blog che hanno nell’url /tag/ oppure /category/

    Vorrei che queste pagine fossero indicizzate correttamente. Non capisco come individuare e correggere questi errori.

    1. Giovanni Sacheli 754 risposte

      Ciao Ben, grazie della domanda. Ci possono essere diverse cause al tuo problema:

      1. le pagine di tag se molto simili ad altre pagine potrebbero essere ignorate.
      2. magari in passato quelle pagine sono state noindex e Google non ha ancora recepito il cambiamento.
      3. verifica l’intestazione HTTP, il noindex potrebbe essere li.

      Per migliorare pagine di cat e tag ti consiglio di aggiungere del testo personalizzato ad introduzione dell’archivio.

      1. Ben 6 commenti

        Farò questi controlli.
        Grazie del suggerimento

  6. Luca Marconato 1 commento

    Buongiorno Giovanni,
    complimenti per i preziosi articoli pubblicati!
    Le vorrei chiedere aiuto per un problema che da qualche mese a questa parte si è verificato sul mio sito internet. Per un paio d’anni l’indicizzazione Google ha sempre funzionato egregiamente e il sito compariva in cima a tutte le ricerche, ora non risulta più tra le ricerche, a meno che non venga digitato direttamente l’indirizzo dall’utente.
    Ho effettuato tutti i test del caso, ma purtroppo non essendo un webmaster non riesco a capire come poter risolvere il problema.
    Google Search Console alla voce Indicizzazione consentita mi segnala No: “noindex” rilevato nel meta tag “robots”.
    La richiesta di nuova indicizzazione ha dato esito (credo) positivo, poiché verrà messo in coda con alta priorità.
    Il sito l’ho costruito nella piattaforma Squarespace, ho spulciato tutti i loro tutorial e tutti i menù interni delle impostazioni avanzate, ma mi chiedo come si possano togliere concretamente i tag “noindex”…

    Mi permetto di riportare la scansione del sito da parte di Google Search Console e mi scuso per la lunghezza del messaggio! La ringrazio fin da ora per il suo tempo e il suo prezioso aiuto!

    1. Giovanni Sacheli 754 risposte

      Ciao Luca, grazie del commento che mi sono permesso di accorciare dato che il robots.txt che avevi incollato non conteneva nulla di rilevante alla risoluzione del problema.

      Il problema è chiaramente il tag NOINDEX all’interno delle pagine HTML oppure nell’intestazione HTTP. Onestamente non ho mai sentito parlare della piattaforma Squarespace ma, con una ricerca su Google, ho trovato questo tutorial che spiega come mettere o rimuovere il tag NOINDEX dalle pagine: https://support.squarespace.com/hc/en-us/articles/360022347072-Hiding-pages-from-search-engine-results

      Spero ti possa essere d’aiuto. A presto!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Ultimi articoli aggiornati

Richiedi un preventivo SEO e Google Ads

Porta il tuo sito web al livello successivo con l’expertise di EVE Milano. La nostra agenzia di Search Marketing ha ricevuto oltre 1123 richieste di preventivo, un segnale chiaro della fiducia che imprenditori e manager, come te, ripongono nella nostra specializzazione tecnica e verticale nella SEO e PPC. Se la tua organizzazione cerca competenze specifiche per emergere nei risultati di Google, noi siamo pronti a fornire quel valore aggiunto. Affidati alla nostra esperienza per fare la differenza.
Richiedi un preventivo

Non perderti altre guide, iscriviti per ricevere un avviso mensile con gli aggiornamenti del blog!

Iscriviti alla newsletter!

Informativa sui cookies

Noi e terze parti selezionate utilizziamo cookie o tecnologie simili per finalità tecniche e, con il tuo consenso, anche per le finalità di esperienza e misurazione come specificato nella cookie policy. Puoi liberamente prestare, rifiutare o revocare il tuo consenso, in qualsiasi momento, accedendo al pannello delle preferenze. Il rifiuto del consenso può rendere non disponibili le relative funzioni. Usa il pulsante “Accetta” per acconsentire. Usa il pulsante “Rifiuta” per continuare senza accettare.