Barra di navigazione
  Home page Inizio Pagina precedente
 74 di 198 
Pagina seguente Fine Indice Tabelle Figure Bibliografia 69 70 71 72 73 74 75 76 77 78 79  

74
messo a Google di stabilire nuovi benchmark di efficienza coi quali
tutti i motori di ricerca, oggi, sono costretti a fare i conti.
Nel corso di questo capitolo prenderemo in esame le caratteristi-
che hardware e software¹ che hanno contraddistinto Google come mo-
tore di ricerca innovativo e tecnologicamente avanzato, discutendone
peculiarità e implicazioni.
4.1
Le innovazioni software
Possiamo suddividere le innovazioni software di Google in tre ca-
tegorie che fanno riferimento ai tre principali compiti (task) svolti dai
motori di ricerca: crawling, indexing e ranking.
4.1.1
Tecniche di crawling
Come anticipato nel capitolo precedente, si intende per crawling
l’attività di esplorazione del World Wide Web per mezzo di robot
(ovverosia programmi automatizzati) detti spider o crawler allo scopo
di estrarne informazioni da includere in un database. Tipicamente, i
crawler effettuano una scansione del Web seguendo ricorsivamente i
collegamenti (hyperlink) contenuti nei documenti HTML. Questa tec-
nica di esplorazione, detta link-following, permette ai motori di ricerca
di trovare una quantità virtualmente infinita di nuove risorse sempli-
cemente attraverso i link da una pagina web all’altra: diventa perciò
problematico esplorare in maniera efficiente uno spazio esteso e alta-
mente interconnesso come il Web. La crescita del Web durante la se-
conda metà degli anni ’90² ha ulteriormente acuito questo problema:
esplorare la Rete oggi per mezzo di uno spider è un compito notevol-
mente complesso e dalle molte incognite, poiché comporta
l’interazione con centinaia di migliaia di server web e l’interrogazione
a numerosi domain name server (DNS) remoti.
                                                
1
Ove non diversamente indicato, la fonte delle informazioni tecniche contenute in
questo capitolo è [BriPag98], al quale si rimanda per una descrizione più dettagliata
del funzionamento del motore di ricerca.
2
Vedi tab. 1.1.
Pagina precedente Inizio pagina Pagina seguente