74
messo a Google di stabilire nuovi benchmark di efficienza coi quali
tutti i motori di ricerca, oggi, sono costretti a fare i conti.
Nel corso di questo capitolo prenderemo in esame le caratteristi-
che hardware e software¹ che hanno contraddistinto Google come mo-
tore di ricerca innovativo e tecnologicamente avanzato, discutendone
peculiarità e implicazioni.
4.1
Le innovazioni software
Possiamo suddividere le innovazioni software di Google in tre ca-
tegorie che fanno riferimento ai tre principali compiti (task) svolti dai
motori di ricerca: crawling, indexing e ranking.
4.1.1
Tecniche di crawling
Come anticipato nel capitolo precedente, si intende per crawling
lattività di esplorazione del World Wide Web per mezzo di robot
(ovverosia programmi automatizzati) detti spider o crawler allo scopo
di estrarne informazioni da includere in un database. Tipicamente, i
crawler effettuano una scansione del Web seguendo ricorsivamente i
collegamenti (hyperlink) contenuti nei documenti HTML. Questa tec-
nica di esplorazione, detta link-following, permette ai motori di ricerca
di trovare una quantità virtualmente infinita di nuove risorse sempli-
cemente attraverso i link da una pagina web allaltra: diventa perciò
problematico esplorare in maniera efficiente uno spazio esteso e alta-
mente interconnesso come il Web. La crescita del Web durante la se-
conda metà degli anni 90² ha ulteriormente acuito questo problema:
esplorare la Rete oggi per mezzo di uno spider è un compito notevol-
mente complesso e dalle molte incognite, poiché comporta
linterazione con centinaia di migliaia di server web e linterrogazione
a numerosi domain name server (DNS) remoti.
1
Ove non diversamente indicato, la fonte delle informazioni tecniche contenute in
questo capitolo è [BriPag98], al quale si rimanda per una descrizione più dettagliata
del funzionamento del motore di ricerca.
2
Vedi tab. 1.1.