Dietro a Google c'è un robot.

Per fornire all'utente delle risposte il più possibile complete e rapide alle sue ricerche, Google fa uso di un grande numero di “crawler” (letteralmente “lombrichi”, detti anche “spider” o “bot”). Si tratta di software speciali che analizzano i contenuti di una Rete (o di un database) in un modo sistematico e del tutto automatizzato, simulando il comportamento di un bibliotecario che cerca fra gli scaffali di un'enorme biblioteca il libro richiesto da una persona. Ogni qualvolta si effettua una ricerca, i crawler o bot cercano i risultati fra i milioni di pagine Web acquisite. I crawler di Google si chiamano Googlebot. Questo processo è detto indicizzazione. Tramite l'indicizzazione, un sito è riconosciuto dai motori di ricerca e quindi può comparire nelle pagine generate dalle interrogazioni degli utenti. I tempi di indicizzazione di un sito Internet possono variare da pochi giorni a qualche mese. Google non aspetta che un webmaster segnali un nuovo sito Web, ma analizza le pagine automaticamente. I webmaster, ossia gli amministratori che si occupano della realizzazione e della gestione dei siti web, possono in ogni caso aggiungere un nuovo sito alla sezione Strumenti per webmaster. In questa sezione possono anche verificare che Googlebot abbia visitato correttamente il proprio sito e scoprire eventuali problemi. Dopo aver registrato i nuovi siti Web, i Googlebot scansionano periodicamente i siti presentati nei loro archivi per verificare la presenza di eventuali aggiornamenti o modifiche. Quando un Googlebot trova un link a un'altra pagina del sito o a un altro sito, analizza anche questi ultimi. Quando il motore di ricerca termina l'operazione di scansione dei siti già presenti in archivio comincia ad analizzare i siti proposti dal webmaster.

Il Googlebot classifica le pagine Web.

Dopo aver scansionato la Rete e indicizzato, ossia raggruppato, una grandissima quantità di pagine Web, il motore di ricerca passa alla seconda fase: classificazione in base a parole chiave che siano il più possibile attinenti al sito. Le pagine Web catturate dai Googlebot sono in seguito inviate a un server in cui vengono memorizzate, in formato compresso. Ogni pagina è associata a un numero ID detto “docID”, che è assegnato ogni qualvolta è individuato un nuovo URL. In seguito, ciscun documento è trasformato in un insieme di parole chiave dette “hit” (letteralmente “centro”). Sono le parole evidenziate in grassetto che appaiono nella descrizione dei risultati delle ricerche. A ciascuna di queste parole chiave sono associate delle informazioni, come la loro posizione nel documento. Tutti questi dati sono contenuti in un indice, che raccoglie anche tutti i link analizzati e, per ciascuno di essi, tutte le pagine a cui il link punta e quelle che portano a quel determinato link. Tutte queste informazioni sono usate per stabilire il “voto” della pagina, ossia il PageRank. Come è stato spiegato, il PageRank di Google attribuisce alle pagine Web un'importanza che dipende dal numero di collegamenti provenienti da altri siti Internet che puntano a tale pagina.

Cerca nel blog

Mauro e i Post