Molti temi per WordPress hanno la possibilità di attivare i commenti nidificati, questa funzione permette di rispondere ad ogni singolo commento premendo il pulsante Rispondi. Il pulsante genera un URL con parametro replytocom e nonostante WordPress assegni i tag noindex, nofollow a questi URL (si, purtroppo anche nofollow), in alcuni casi il parametro può generare comunque problemi di crawling ed indicizzazione.
Che problemi genera il parametro replytocom?
- Un problema di crawling è ad esempio quando Googlebot dedica buona parte del crawl budget per scansionare gli URL con parametro replytocom (puoi verificare questa cosa leggendo il file log del tuo web server). Un blog WordPress con migliaia di commenti genera molti più URL del suo numero effettivo di pagine portando ai bot molto più lavoro di quello che effettivamente servirebbe a scansionare bene tutto il sito.
- Un problema di indicizzazione è quando questi URL, dopo essere stati scansionati, vengono indicizzati e mostrati in SERP, generando quindi contenuto duplicato e/o di basso valore.
Con l’aumentare dei commenti aumenta anche il numero di link on-page che puntano alla stessa pagina. Si richiedono così agli spider risorse di crawling sempre crescenti e non necessarie. Per questi motivi è importante monitorare i parametri in Google Search Console ed ottimizzare il sito web affinché sia immune a questi problemi.
Verificare la presenza di problemi
Prima di gridare al lupo al lupo accertati della presenza di eventuali errori causati da questo parametro. I template come StudioPress gestiscono in automatico questo genere di problemi implementando la tag Rel Canonical.
Per verificare puoi fare due controlli:
- Verifica nel log del web server quanti URL con parametro replytocom vengono scansionati
- Utilizza l’operatore di ricerca site: e inurl: per controllare se nell’indice di Google ci sono pagine parametrizzate replytocom
Come gestire il parametro replytocom
1. Implementa il tag Rel canonical
<link rel="canonical" href="http://www.example.com/page-1" >
Non mi dilungo a riguardo, tutti i lettori assidui di questo blog conoscono benissimo l’importanza del tag canonical a prescindere dalla presenza di qualsivoglia parametro. Nelle ultime versioni di WordPress il canonical è stato incluso quindi non dovresti preoccuparti, al massimo aggiorna il CMS.
Rel Il Rel Canonical è il primo e più importante accorgimento da prendere per ridurre le probabilità di generare contenuti duplicati nell’indice di Google. Se il tuo tema WordPress non implementa questa tag allora consiglio di buttarlo nel aggiornarlo.
2. Disabilita il parametro replytocom in Google Search Console
Accedi a Google Search Console e naviga in Scansione > Parametri URL. In questa schermata vedrai se Googlebot individua parametri durante la scansione del tuo sito. Se in elenco vedi anche replytocom ti consiglio di gestirlo. Premi Modifica ed imposta Non influisce sui contenuti.
3. SEO by Yoast
Il plugin per WordPress SEO by Yoast ha l’opzione per rimuovere il parametro dalla struttura di WordPress per risolvere il problema a monte. Secondo me questa è una delle soluzioni migliori nel caso tu non sia in grado di rimuovere il parametro dal tuo tema senza l’utilizzo di plugin aggiuntivi.
4. Utilizza il file Robots.txt
Un’altra soluzione è quella di bloccare tutti gli URL con parametro replytocom dal file Robots.txt. Sarà sufficiente implementare una RegEx per filtrare tutti gli URL dei commenti. Questo che segue è un esempio di file Robots.txt classico per WordPress con l’aggiunta del Disallow su URL replytocom:
User-agent: *
Disallow: *?replytocom
Questa tuttavia non è la soluzione ottimale perche il Disallow del Robots.txt non è il Noindex! Come puoi vedere in questo esempio gli URL restano in SERP sebbene siano stati bloccati.
Una soluzione molto drastica è quella di impostare una regola nel file .HTACCESS per redirezionare tutte le richieste ad URL con replytocom al rispettivo URL canonico. A mio parere questa non è la soluzione migliore.
5. Redirect 301 con .HTACCESS
RewriteCond %{REQUEST_URI} replytocom
RewriteRule .* - [F]
6. Implementa il tag Noindex nelle pagine con URL replytocom
Come detto ad inizio articolo gli URL con parametro replytocom generati dal sistema dei commenti nidificati di WordPress dovrebbero essere taggati di default Nofollow, Noindex. Nel caso in cui 1) il tuo tema non blocchi questi URL e 2) tu non possa implementare il tag Rel Canonical, allora ti consiglio di buttare aggiornare il tema in modo che questi URL replytocom vengano taggati soltanto con il tag meta robots Noindex.
<html>
<head>
<meta name="robots" content="noindex">
7. Altre scappatoie
Per tagliare la testa al toro si può implementare un sistema di commenti esterno come Disqus, IntenseDebate e Livefyre , oppure un sistema sviluppato in JavaScript o metodi alternativi invisibili ai motori di ricerca. Queste soluzioni tuttavia sono una lama a doppio taglio: è vero che da una parte rimuovono tutti i link generati dal sistema dei commenti di WordPress ma dall’altra parte rendono di fatto invisibile ai motori di ricerca l’engagement generato dalla pagina. Sebbene non sia dichiarato è ragionevole pensare che, a parità di altri fattori on e off site, un articolo con molti commenti (magari anche costruttivi) sia considerato dagli algoritmi di Google con più riguardo rispetto un articolo senza un minimo di iterazione con i propri lettori. Cosa ne pensi?
Link di approfondimento
- https://yoast.com/wordpress-threaded-comments-and-seo/
- http://moz.com/community/q/should-i-remove-the-replytocom-variables-in-wordpress