80
PageRank
13
sfrutta le meta-informazioni contenute nelle pagine
web, quali la struttura dei collegamenti e il testo loro associato, per
calcolare una misura oggettiva di importanza che corrisponde bene
allidea intersoggettivamente definita di importanza
14
. Partendo dalla
nozione di importanza citazionale, tradizionalmente applicata
allanalisi della letteratura accademica, Brin e Page hanno progettato
un algoritmo che ordina i risultati delle ricerche assegnando loro un
indice di priorità basato non solo sulla rilevanza, ma anche
sullimportanza, definita sia in termini di link popularity sia in termini
di link quality. Tale misura è ottenuta contando ricorsivamente le cita-
zioni, ossia i collegamenti precedenti (back link) ad ogni pagina web,
e normalizzando questo valore in base al numero di link presenti su
ogni pagina. Dalla definizione formale di PageRank:
Assumiamo che la pagina A abbia le pagine T1
Tn che puntano
ad essa (ovverosia, sono citazioni [della pagina A]). Il parametro d
è un fattore di smorzamento che può essere posto tra 0 e 1. Solita-
mente noi poniamo d uguale a 0,85. [
] C(A) è definito come il
numero di collegamenti uscenti dalla pagina A. Il PageRank della
pagina A è definito come segue:
PR(A) = (1-d) + d (PR(T1)/C(T1) +
+ PR(Tn)/C(Tn))
Si noti che i PageRank formano una distribuzione di probabilità
sulle pagine web, cosicché la somma di tutti i PageRank sarà ugua-
le ad uno.
15
13
Lalgoritmo prende ufficialmente il nome da Larry Page, sebbene sia stato ideato
congiuntamente da Brin e Page; unetimologia alternativa fa riferimento al fatto che
PageRank è un metodo per misurare limportanza delle singole pagine web (vedi
oltre).
14
[BriPag98].
15
[BriPag98] (p. 4, trad. nostra). Una definizione formalmente più rigorosa di Page-
Rank è contenuta in [PBMW98].