Barra di navigazione
  Home page Inizio Pagina precedente
 85 di 198 
Pagina seguente Fine Indice Tabelle Figure Bibliografia 80 81 82 83 84 85 86 87 88 89 90  

85
Una delle novità più importanti rispetto allo schema originario è
quella che riguarda l’incorporazione di tecniche di topic distillation
all’interno delle procedure di ranking utilizzate da Google. Queste
tecniche fanno riferimento alle ricerche sull’estrazione di informazioni
tematiche a partire dall’analisi della struttura ipertestuale del Web
21
.
In particolare la teoria degli hub e authority proposta da Kleinberg è
stata utilizzata per integrare PageRank con algoritmi più sofisticati che
tengono conto dell’informazione tematica (argomenti o topic) che è
possibile inferire dal contenuto delle pagine indicizzate e dalla struttu-
ra dei loro collegamenti. Nell’insieme dei meccanismi di ranking usati
dal motore di ricerca, è questa probabilmente la seconda componente
più importante dopo PageRank: ciò è confermato non solo
dall’evidenza empirica secondo la quale Google tiene conto
dell’argomento di cui tratta una pagina nel calcolare il suo PageRank
(infatti, l’incremento di PageRank riferibile al collegamento reciproco
fra pagine che condividono lo stesso tema è maggiore di quello riferi-
bile al collegamento fra pagine aventi temi scorrelati), ma anche
dall’esistenza di varie ricerche riguardanti possibili applicazioni delle
tecniche di topic distillation e della teoria degli hub e authority
all’algoritmo PageRank
22
. Infine, l’attuale uso di algoritmi di distilla-
zione tematica è provato non solo dal fatto che, per query sufficiente-
mente generiche, Google effettua un best guess dell’argomento della
ricerca aggiungendo in cima ai risultati un collegamento alla categoria
corrispondente della Google Directory, ma anche dall’esistenza della
funzione Similar Pages (originariamente chiamata GoogleScout)
23
,
che per ciascun risultato di una ricerca offre la possibilità di consultare
una lista di pagine tematicamente correlate.
Altre innovazioni negli algoritmi di ranking di Google, che hanno
il duplice scopo di proteggere l’indice del motore di ricerca dai tenta-
tivi di spamming e migliorare la qualità dei risultati, fanno riferimento
                                                
21
Vedi [Dav00] e [Kle99].
22
Vedi [BhaMih01], [JehWid01] e [Hav02].
23
Pagina precedente Inizio pagina Pagina seguente