78
Lultima fase del processo di indicizzazione consiste
nellordinamento (sorting) degli indici di corrispondenze appena crea-
ti (forward barrel): lapplicazione sorter ordina ciascun barrel per
wordID, producendo due indici invertiti (inverted barrel), uno conte-
nente le occorrenze delle parole allinterno degli elementi HTML
<title> e <a> di ciascun documento, e uno per le occorrenze nel
resto del testo (da consultare solo nel caso in cui la parola ricercata
non sia contenuta nel primo indice). Il sorting mediante generazione di
indici invertiti è funzionale alle procedure di ranking poiché ha lo
scopo di velocizzare la localizzazione dei documenti nei quali occor-
rono una o più parole chiave, operazione che viene eseguita in tempo
reale ogni volta che si effettua una ricerca. Unimportante innovazione
a questo riguardo è la possibilità di tenere il lexicon in memoria su
una macchina con 256 MB di RAM, velocizzando ulteriormente le
operazioni di ricerca.
4.1.3
Tecniche di ranking
Il contenuto del World Wide Web include oggi dati e documenti
nei formati più disparati (testuale, grafico, multimediale ecc.), nonché
informazioni (o meglio, meta-informazioni) sottoforma di collegamen-
ti ipertestuali ad altri documenti o basi di dati. Le tecniche di pro-
grammazione finalizzate allestrazione di informazioni (ad esempio,
correlazioni) da una base di dati eterogenea appartengono a quel setto-
re specialistico che va sotto il nome di data mining
9
, un campo nel
quale sia R. Motwani e J. Ullman, docenti di Stanford e attuali mem-
bri del Technical Advisory Council di Google, sia gli stessi Brin e
Page
10
hanno svolto attività di ricerca propedeutiche alla creazione di
Google. Tali ricerche, in particolare quelle focalizzate sullestrazione
e impiego delle meta-informazioni contenute nello spazio ipertestuale
del Web, sono state messe a frutto da questi ultimi nella progettazione
9
Letteralmente, estrazione (dinformazioni) da una miniera di dati.
10
Vedi ad es. [Bri99] e [BriPag99].