Barra di navigazione
  Home page Inizio Pagina precedente
 76 di 198 
Pagina seguente Fine Indice Tabelle Figure Bibliografia 71 72 73 74 75 76 77 78 79 80 81  

76
di tenere costantemente aggiornato un indice di oltre due miliardi di
pagine web
7
.
4.1.2
Tecniche di indexing
L’attività di indexing consiste nell’immagazzinare e indicizzare
(mediante creazione di un indice ordinato) i dati e documenti scaricati
dal crawler, rendendoli disponibili per essere prelevati in tempo reale
e presentati in maniera ordinata nei risultati delle ricerche in risposta a
una query specifica. L’efficienza degli algoritmi di indexing è critica
per il buon funzionamento di un motore di ricerca: poiché l’indexer
lavora tipicamente in parallelo al crawler, costruendo l’indice a mano
a mano che i documenti vengono scaricati, la presenza di un “collo di
bottiglia” nelle procedure di indexing può influire negativamente
sull’attività di crawling, rallentandola drasticamente.
La procedura complessa che va comunemente sotto il nome di in-
dexing si compone in realtà di tre sotto-procedure principali: parsing,
indexing e sorting. Il parsing consiste nell’interpretazione del contenu-
to restituito dal crawler, che può essere un documento HTML o in altri
formati. Il compito principale del parser è l’estrazione delle parole
(keyword) e collegamenti (hyperlink) contenuti nel codice sorgente del
documento. Comprensibilmente, le tipologie di errori di sintassi che
un parser può incontrare nel corso dell’analisi di una base dati vasta ed
eterogenea come il Web sono virtualmente infinite: per questo motivo,
costruire un’applicazione parser abbastanza robusta e flessibile da po-
ter essere eseguita sull’intero contenuto web a una velocità ragionevo-
le è un compito niente affatto banale. Per risolvere questo problema,
Brin e Page hanno utilizzato Flex
8
per generare un analizzatore lessi-
cale “su misura” (dotato di un proprio stack) che si è rivelato estre-
mamente affidabile.
                                                
7
[Bru02].
8
Pagina precedente Inizio pagina Pagina seguente