Barra di navigazione
  Home page Inizio Pagina precedente
 78 di 198 
Pagina seguente Fine Indice Tabelle Figure Bibliografia 73 74 75 76 77 78 79 80 81 82 83  

78
L’ultima fase del processo di indicizzazione consiste
nell’ordinamento (sorting) degli indici di corrispondenze appena crea-
ti (forward barrel): l’applicazione sorter ordina ciascun barrel per
wordID, producendo due indici invertiti (inverted barrel), uno conte-
nente le occorrenze delle parole all’interno degli elementi HTML
<title> e <a> di ciascun documento, e uno per le occorrenze nel
resto del testo (da consultare solo nel caso in cui la parola ricercata
non sia contenuta nel primo indice). Il sorting mediante generazione di
indici invertiti è funzionale alle procedure di ranking poiché ha lo
scopo di velocizzare la localizzazione dei documenti nei quali occor-
rono una o più parole chiave, operazione che viene eseguita in tempo
reale ogni volta che si effettua una ricerca. Un’importante innovazione
a questo riguardo è la possibilità di tenere il lexicon in memoria su
una macchina con 256 MB di RAM, velocizzando ulteriormente le
operazioni di ricerca.
4.1.3
Tecniche di ranking
Il contenuto del World Wide Web include oggi dati e documenti
nei formati più disparati (testuale, grafico, multimediale ecc.), nonché
informazioni (o meglio, meta-informazioni) sottoforma di collegamen-
ti ipertestuali ad altri documenti o basi di dati. Le tecniche di pro-
grammazione finalizzate all’estrazione di informazioni (ad esempio,
correlazioni) da una base di dati eterogenea appartengono a quel setto-
re specialistico che va sotto il nome di data mining
9
, un campo nel
quale sia R. Motwani e J. Ullman, docenti di Stanford e attuali mem-
bri del Technical Advisory Council di Google, sia gli stessi Brin e
Page
10
hanno svolto attività di ricerca propedeutiche alla creazione di
Google. Tali ricerche, in particolare quelle focalizzate sull’estrazione
e impiego delle meta-informazioni contenute nello spazio ipertestuale
del Web, sono state messe a frutto da questi ultimi nella progettazione
                                                
9
Letteralmente, estrazione (d’informazioni) da una “miniera” di dati. 
10
Vedi ad es. [Bri99] e [BriPag99].
Pagina precedente Inizio pagina Pagina seguente