Barra di navigazione
  Home page Inizio Pagina precedente
 75 di 198 
Pagina seguente Fine Indice Tabelle Figure Bibliografia 70 71 72 73 74 75 76 77 78 79 80  

75
L’approccio di Brin e Page per risolvere questo problema in ma-
niera efficiente è stato quello di progettare un crawling system distri-
buito, costituito da un unico URL server che fornisce liste di URL da
visitare a una serie di web crawler, entrambi implementati in Python.
Il prototipo iniziale di Google contempla l’uso di quattro crawler, cia-
scuno di essi in grado visitare 300 URL contemporaneamente, che a
regime sono in grado di prelevare oltre 100 pagine web al secondo,
per un totale di circa 600 kilobyte di dati. Per risolvere il problema dei
tempi non comprimibili dell’interrogazione (lookup) dei DNS, che ral-
lenta notevolmente l’attività di crawling, ogni crawler mantiene inol-
tre una propria cache dei DNS, in maniera tale che non è più necessa-
rio interrogarli prima di visitare ogni URL. Questo sistema distribuito,
che utilizzava I/O asincrono per la gestione delle code di eventi, ha
permesso al primo prototipo di Google di scaricare 26 milioni di pagi-
ne web in circa nove giorni. Il sorgente HTML di ogni pagina web
prelevata viene archiviato usando l’algoritmo di compressione zlib³ e
memorizzato in un repository contenente anche l’URL e le dimensioni
di ciascun documento, insieme a un identificatore univoco (docID);
complemento essenziale al repository è un document index ordinato
per docID che contiene per ciascun documento lo stato di aggiorna-
mento, un puntatore al repository, una checksum e varie altre statisti-
che. Il repository HTML permette a Google di mantenere una cache
(aggiornata ad ogni crawl e consultabile direttamente dall’interfaccia
di ricerca) delle pagine web visitate
4
. Il crawler di Google si è evoluto
anche grazie al lavoro successivo svolto da Brin e Page e altri ricerca-
tori di Stanford che hanno ulteriormente migliorato le tecniche di cra-
wling, mettendo a punto tecniche che permettono di cominciare
l’esplorazione del Web a partire dagli URL ritenuti più importanti
5
.
Oggi Googlebot
6
visita quotidianamente oltre 3 milioni di URL al fine
                                                
3
4
5
Vedi in particolare [CGMP98] e [ACGMPR01].
6
Pagina precedente Inizio pagina Pagina seguente