Skip to content

Google PageRank

Il PageRank è un algoritmo che assegna un valore numerico ad ogni link (hyperlink) presente in un documento del World Wide Web. La finalità del PageRank è misurare l’importanza di un documento in rapporto al set di documenti dove è incluso. L’algoritmo può essere applicato a qualsiasi collezione di entità con reciproci collegamenti e referenze.

Detto più semplicemente, il PageRank è un algoritmo che misura il valore di una pagina web in base ai collegamenti che riceve dal sito di appartenenza e da altri siti web esterni.

Il valore di PageRank risulta da un algoritmo matematico basato sul grafo dei collegamenti del Web, formato da tutte le pagine (nodi) e collegamenti (archi) che formano il web. Il valore del PageRank misura l’importanza di una particolare pagina. Un link verso una pagina conta come un voto di supporto. Il PageRank di una pagina dipende a sua volta dal PageRank delle pagine che linkano ad essa. Una pagina linkata da altre pagine ad alto PageRank riceverà a sua volta un alto PageRank.

Sono stati scritti numerosi documenti accademici sul PageRank dopo l’originale, ed è più che ragionevole pensare che l’algoritmo usato oggi da Google possa essere cambiato nel tempo. Il PR si è probabilmente evoluto verso un algoritmo più preciso, affidabile e meno influenzabile da tecniche di Link Building. Google combatte la link building con nuovi algoritmi, come Penguin, che cercano di ignorare i link non naturali, ovvero non spontanei e creati con l’unico scopo di modificare il PageRank.

Esistono altri algoritmi basati sui link per valutare le pagine web, tra questi i più noti sono:

  • l’algoritmo HITS inventato da Kleinberg ed utilizzato da Teoma e Ask.com
  • l’algoritmo sviluppato dal progetto IBM CLEVER project
  • l’algoritmo TrustRank
  • l’algoritmo Hummingbird

La storia del PageRank

La prima formula del PageRank fu sviluppata nell’università di Stanford da Larry Page e Sergey Brin nel 1996 come parte di un progetto per un nuovo genere di motore di ricerca. Sergey Brin ebbe l’idea di ordinare le informazioni sul web su una scala gerarchica basata sulla “link popularity”: una pagina ottiene un rank maggiore se ottiene un maggiore numero di link in entrata.

Il primo brevetto che descrive l’algoritmo del PageRank, ed il primo prototipo di Google, fu pubblicato nel 1998: poco tempo dopo Page e Brin fondarono Google Inc. Sebbene oggi il ranking delle pagine sia calcolato utilizzando diversi algoritmi, il PageRank è ancora uno dei più importanti.

Il nome “PageRank” è un gioco di parole tra il nome dell’ideatore Larry Page ed il concetto di posizionamento di pagina web. Il termine è un marchio registrato di Google ed il processo di calcolo è un brevetto (U.S. Patent 6,285,999). Il brevetto è stato assegnato alla Stanford University e non a Google. Google ha ricevuto la licenza esclusiva ed i diritti sul brevetto dalla Stanford University. L’università ha ricevuto 1.8 milioni di azioni di Google in cambio dell’uso del brevetto; le azioni sono state vendute nel 2005 al valore di 336 milioni di dollari.

L’idea del PageRank fu influenzata dalla Citation analysis, teoria sviluppata da Eugene Garfield negli anni ’50 nell’università della Pennsylvania, e dalla Hyper Search, sviluppata da Massimo Marchiori all’università di Padova. Nello stesso anno in cui il PageRank fu introdotto, Jon Kleinberg pubblicò un importante documento su HITS. I fondatori di Google citarono Garfield, Marchiori e Kleinbergnel nel loro brevetto originale.

L’Algoritmo del PageRank

Il Link Graph
Rappresentazione del link graph

L’algoritmo del PageRank calcola la distribuzione della probabilità che quella pagina venga visitata, in altre parole rappresentare la possibilità o la verosimiglianza che una persona clicchi casualmente un link per arrivare in una particolare pagina. Il PageRank può essere calcolato per una collezione di documenti di qualsiasi grandezza. Il calcolo del PageRank richiede diversi passaggi chiamati “iterazioni”.

La probabilità è espressa come valore numerico tra 0 e 1. Una probabilità del valore 0.5 è espressa come “50% di chance” che qualcosa avvenga. Quindi, un valore di PageRank di 0.5 significa che c’è il 50% di possibilità che una persona cliccando un link casuale sulla pagina verrà redirezionato ad un documento con PageRank 0.5.

Formula semplificata

Vediamo un esempio di sole 4 pagine: A, B, C e D. I link da una pagina a se stessa, oppure link multipli da una singola pagina verso la stessa risorsa esterna, vengono ignorati. Il PageRank è inizializzato allo stesso valore per tutte le pagine. All’inizio dell’implementazione del PageRank, la somma del PageRank di tutte le pagine che componevano il web era uguale alla somma di tutte le pagine che componeva il web, quindi tutte le pagine avevano un valore uguale a 1. Con il passare del tempo e l’evolversi dell’algoritmo i valori sono cambiato, data la probabilità un valore tra 0 e 1, oggi tutte le nuove pagine hanno un valore iniziale di 0.25.

Inizialmente il PageRank trasferito da una data pagina alla destinazione dei suoi link in uscita è diviso ugualmente tra tutti i link in uscita.

Se gli unici link dell’esempio sono dalle pagine B, C e D verso la pagina A, ogni link trasferisce 0.25 PageRank alla pagina A che, dopo le iterazioni otterrà un valore di PageRank di 0.75.

PR(A)= PR(B) + PR(C) + PR(D)
Distribuzione del PageRank
Distribuzione del PageRank nei siti web attraverso i backlink

Fattori di smorzamento

La teoria del PageRank assume che il navigatore immaginario (imaginary surfer, vedremo in seguito questo concetto) che clicca link random smetterà di cliccare dopo un certo lasso di tempo. La probabilità che interrompa la navigazione è, in ogni momento, è un fattore di smorzamento. Diversi studi sono stati svolti per testare diversi fattori di smorzamento, ma in generale viene considerato un fattore di smorzamento medio di 0.85.

Il fattore di smorzamento è sottratto ad 1 (ed in alcune varianti dell’algoritmo il risultato è diviso dal numero di documenti nella collezione) e questo valore è quindi sommato al prodotto del fattore di smorzamento e la somma del PageRank in arrivo

La formula è:

PR(A) = {1 – d \over N} + d \left( \frac{PR(B)}{L(B)}+ \frac{PR(C)}{L(C)}+ \frac{PR(D)}{L(D)}+\,\cdots \right).

Quindi il PageRank di qualsiasi pagina è derivato in larga parte dal PageRank delle altre pagine.

Google ricalcola il valore di PageRank ogni volta che scansiona il web ed aggiorna il suo indice. Maggiore diventa il numero di documenti nell’indice di Google e minore diventa il PageRank assegnato di partenza ad ogni pagina.

La formula usa un modello di un random surfer che si annoia dopo qualche click e si sposta su un’atra pagina random. Il valore di PageRank di una pagina riflette la probabilità che il random surfer atterrerà su quella pagina cliccando un link. Il concetto può essere capito come la catena di Markov nella quale gli stati sono le pagine, e le transizioni, che sono ugualmente probabili, sono i link tra le pagine.

Riferimenti alla teoria del Random Surfer:

Se una pagina non ha link verso altre pagine diventa una strada chiusa e terminerà il processo del random surfer. Se il random surfer arriva in una strada chiusa, prenderà un altro URL random e continuerà la sua navigazione.

Quando viene calcolato il PageRank, le pagine senza link in uscita vengono trattate come se linkassero a tutte le pagine del set di documenti della collezione. Il valore del loro PageRank verrà diviso per tutte le altre pagine.

Come risultato della teoria della catena di Markov, è possibile mostrare che il PageRank di una pagina sia la probabilità di atterrare in quella pagina dopo un largo numero di click.

Uno dei maggiori e più evidenti svantaggi del PageRank è che l’algoritmo favorisce le vecchie pagine, online da molto tempo. Una nuova pagina, anche con contenuti di alta qualità, non otterrà molti link finché non verrà inserita in un sito web.

Strategie per accrescere il PageRank

Negli anni sono state utilizzate molte strategie per incrementare il PageRank e quindi migliorare il ranking nei risultati di ricerca. Queste strategie hanno seriamente messo in dubbio l’affidabilità del PageRank come metodo per valutare documenti di alta qualità.

Dal Dicembre 2007 Google ha cominciato a penalizzare i siti che vendevano link testuali, link farm e altri schemi di link con l’unica finalità di modificare artificialmente il PageRank. Come faccia Google ad identificare link farm ed altre manipolazioni del PageRank non è dato a saperci.

Google Toolbar

La Google Toolbar


La Google Toolbar mostrava il PageRank della pagina che si stava visitando come numero compreso tra 1 e 10. I siti web più popolari hanno PageRank 10, i meno popolari di 0. Google non ha rilasciato il metodo esatto di come viene calcolato il valore mostrato in toolbar, il quale viene considerato soltanto un indicatore molto generico del valore del sito. In passato si pensava erroneamente che un alto valore di PageRank comportasse un alto posizionamento del sito nei risultati di ricerca.

Il PageRank misura il numero di sito che linkano ad una particolare pagina. Il valore di PageRank è basato circa sulla quantità di backlink (link in ingresso) e dal PageRank delle pagine che forniscono i link. L’algoritmo include anche altri fattori, come la grandezza della pagina, il numero di aggiornamenti, il tempo trascorso dall’ultimo aggiornamento, il testo nell’headline ed il testo incluso nelle anchor text dei link.

Nell’ultimo trimestre del 2014 Google ha dichiarato che il valore mostrato dalla Toolbar non verrà più aggiornato, ma l’algoritmo continua ad essere utilizzato come prima semplicemente i webmaster non potranno usare quella barretta verde per valutare i siti web. Ad oggi lo strumento è inutile.

SERP Rank

La pagina dei risultati di ricerca (SERP) è il risultato restituito dai Motori di Ricerca in risposta ad una interrogazione (query). la SERP consiste in una lista di link verso pagine web con uno snippet di testo associato. L’ordinamento dei risultati in SERP è chiamato SERP Rank, più alto sarà il posizionamento di un sito e maggiore sarà il suo SERP Rank. Il SERP Rank di una pagina è funzione non soltanto del PageRank, ma anche di una serie relativamente ampia e costantemente aggiornata di altri fattori, oltre 200. L’ottimizzazione per i motori di ricerca, detta SEO, ha il fine di influenzare il SERP Rank di un sito web o di un set di pagine.

Il posizionamento di una pagina web nella SERP di Google per una parola chiave dipende dalla rilevanza e dalla reputazione, conosciuta anche come authority o popularity. Il PageRank è l’indicatore di qualità di una pagina usato da Google e non è correlato ad una parola chiave. Google usa una combinazione dell’authority della pagina e del sito web per determinare l’authority globale di una pagina web che compete per una data parola chiave. Il PageRank della homepage di un sito web è il miglior indicatore che Google utilizza per stimare l’authority di un sito web.

Dopo l’inserimento di Google Places nei risultati della SERP, numerosi altri fattori sono stati presi in considerazione in aggiunta al PageRank per posizionare una attività/sito/business nei risultati locali.

Google directory PageRank

Google Directory PageRank

Il progetto Google Directory fu lanciato nel 2000 per competere con il relativo servizio di Yahoo. Sebbene Google abbia pescato i dati da DMOZ (progetto di directory open source di Netscape), i dati erano ordinati attraverso una funzione che li ordinava in base alla loro rilevanza. L’ordinamento per rilevanza prendeva in considerazione la link popularity in modo molto simile a come faceva il PageRank.

La Google Directory – come molte altre web directory, ha smesso di funzionare come un metodo per organizzare e pubblicizzare siti web. Con la Search che domina i metodi di ricerca delle informazioni, le directory sono viste principalmente per il valore del loro link juice. Per questa ragione Google ha ridotto il supporto a Google Directory fino alla definitiva chiusura.

Il PageRank della Google Directory era una unità di misura di 8 caratteri. Diversamente dalla Google Toolbar che mostrava un valore numerico del PageRank al passaggio del mouse sopra la barretta verde, la Google Directory mostrava soltanto la barra e mai un valore numerico. Il servizio Google Directory fu interrotto a luglio del 2011.

PageRank falso o “spoofed”

In passato, il PageRank mostrato dalla Google Toolbar era facilmente manipolabile, truccabile, modificabile, … Redirezionando una pagina ad un’altra, sia attraverso redirect HTTP 302 oppure anche con il tag meta refresh, permetteva di clonare il PR della pagina di destinazione verso quella di partenza. Quindi una nuova pagina con PR 0 e nessun link in ingresso poteva ottenere PR 10 semplicemente redirezionando verso la homepage di Google. Questa tecnica di PR spoofing era una vulnerabilità conosciuta. Lo spoofing può essere identificato eseguendo una ricerca su Google per un dato URL: se l’URL di un sito differente è mostrato nei risultati, il secondo URL potrebbe rappresentare la destinazione di un redirect.

Oggi la tecnica del PR spoofing non funziona più.

Manipolare il PageRank

Per finalità SEO, alcune società offrono di vendere ai webmaster link ad alto PR. Dato che sono link da pagine autorevoli hanno un alto valore, maggiore è il PageRank della pagina che ospita i link e maggiore sarà il costo di acquisto del link. Sebbene sia una strategia praticabile quella di acquistare link in pagine rilevanti e di alta qualità per guidare visite e accrescere l’authority del sito web, Google è decisamente contrario. Google infatti ha dichiarato apertamente ai web master che se verranno scoperti vendere link con il fine di modificare il PageRank o la reputazione, i loro link verranno svalutati (ignorati nel calcolo del PageRank delle pagine collegate).

Si dibatte molto online nelle community di webmaster sulla pratica di acquistare backlink. Google ha suggerito ai webmaster di inserire il tag nofollow su tutti i link sponsorizzati (a pagamento). Matt Cutts ha dichiarato che Google è interessato ad individuare quei webmaster che provano a truccare il sistema, come conseguenza la qualità e l’authority del loro sito verranno ridotti o penalizzati.

Il modello del navigatore intenzionale

L’algoritmo originale del PageRank riflette il così chiamato random surfer model, che significa che il PageRank di una particolare pagina è derivato dalla probabilità teorica di visitare quella pagina cliccando un link random. L’intentional surfer model (approfondimento) è invece un modello di ordinamento dei risultati che riflette l’importanza di una particolare pagina come funzione di quante visite attualmente riceve da utenti reali.

La Google Toolbar invia informazioni a Google per ogni pagina visitata e fornisce le basi per il calcolo del PageRank basato sull’intento dell’intentional surfer model. L’introduzione da parte di Google dell’attributo nofollow per combattere lo spam creò l’effetto collaterale di spingere i webmaster ad usare il nofollow su tutti i link in uscita così da accrescere il proprio PR (PageRank sculpting) e praticamente sbriciolando i concetti su cui si basava il PageRank. L’attributo nofollow applicato ad un link si traduce nella richiesta a Google di non seguire tale link. L’utilizzo delle informazioni di navigazione fornite dalla Google Toolbar hanno aiutato Google a compensare questo problema di perdita di informazioni per l’attributo nofollow.

Il SERP Rank di una pagina, che determina il posizionamento di una pagina nei risultati di ricerca, è basato su una combinazione del random surfer model (PageRank) e dell’intentional surfer model (browsing habits) in aggiunta ad altri fattori.

I webmaster in passato praticavano il PageRank Sculpting per aumentare il PR del proprio sito guidando artificialmente il flusso di PR secondo le loro volontà. La strategia si applicava piazzando i tag nofollow su alcuni link interni con il fine di distribuire maggiore PR sui rimanenti link interni.

Oggi il PR sculpting non è più una pratica utilizzata perché Google ha cambiato le regole del gioco, ovvero adesso il PR confluisce anche nei link nofollow. In pratica il PR non viene trasferito alla pagina di destinazione, semplicemente viene disperso per disincentivare l’utilizzo del nofollow per concentrare PR sul proprio sito.

Approfondimento:

Il tag Nofollow

Nei primi mesi del 2005 Google ha implementato una nuova tag definita “nofollow” per l’attributo “rel” di un link in HTML. Questa tag permette ai webmaster e sviluppatori di generare link ignorati da Google nel calcolo del PageRank. La relazione nofollow è stata aggiunta per combattere lo spam.

Come esempio, in passato i webmaster potevano postare molti messaggi nei forum con la firma linkata al proprio sito per modificare artificialmente il PageRank. Con il tag nofollow gli amministratori dei forum hanno potuto modificare facilmente il codice dei link nelle firme, tutti i link inseriti nei post & co rendendoli nofollow e quindi salvando il proprio forum da eventuali penalizzazioni come Panda. Questo metodo tuttavia ha diversi svantaggi come ad esempio ridurre il valore di commenti veri e di alto valore.

La fine del PageRank (pubblico)

Un tempo il PageRank era visibile nel pannello di Google Search Console. Il 15 Ottobre 2009 un dipendente di Google dichiarò che quell’indicatore veniva definitivamente rimosso, dicendo “We’ve been telling people for a long time that they shouldn’t focus on PageRank so much. Many site owners seem to think it’s the most important metric for them to track, which is simply not true.”

In aggiunta l’indicatore di PageRank non è visibile nemmeno attraverso il browser di Google, Chrome.

Il PageRank è uno degli oltre 200 fattori che Google utilizza per determinare la popolarità di una pagina web. Google Panda è un altro algoritmo interessato ad ordinare le pagine in base alla loro popolarità. Sebbene il PageRank non sia più un valore pubblico ed oggi esistano molto altri fattori di ranking, la presenza di backlink da pagine popolari continua a funzionare come metodo per migliorare il proprio ranking.

Altre risorse

Autore

Commenti |2

Lascia un commento Lascia un commento
  1. Giannino Rovelli 1 commento

    wow che compendio, me lo sono letto tutto di un fiato :) ottimo per la mia ricerca, grazie mille Giovanni!

    1. Giovanni Sacheli 759 risposte

      Grazie Giannino spero prenderai un gran voto per la tua ricerca! Sono felice quando trovo appassionati di SEO :D

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Ultimi articoli aggiornati

Richiedi un preventivo SEO e Google Ads

Porta il tuo sito web al livello successivo con l’esperienza di EVE Milano. La nostra agenzia di Search Marketing ha ricevuto oltre 1144 richieste di preventivo, un segnale chiaro della fiducia che imprenditori e manager, come te, ripongono nella nostra specializzazione tecnica e verticale nella SEO e PPC. Se la tua organizzazione cerca competenze specifiche per emergere nei risultati di Google, noi siamo pronti a fornire quel valore aggiunto. Richiedi un preventivo ora e scopri la differenza tra noi e gli altri.
Richiedi un preventivo

Vuoi rimanere aggiornato su tutte le novità SEO e Google Ads?

Iscriviti alla nostra newsletter!

Informativa sui cookies

Noi e terze parti selezionate utilizziamo cookie o tecnologie simili per finalità tecniche e, con il tuo consenso, anche per le finalità di esperienza e misurazione come specificato nella cookie policy. Puoi liberamente prestare, rifiutare o revocare il tuo consenso, in qualsiasi momento, accedendo al pannello delle preferenze. Il rifiuto del consenso può rendere non disponibili le relative funzioni. Usa il pulsante “Accetta” per acconsentire. Usa il pulsante “Rifiuta” per continuare senza accettare.