Dietro a Google c'è un robot.
Aramini Lucia. |
Dietro a Google c'è un robot.
Per
fornire all'utente delle risposte il più possibile complete e rapide
alle sue ricerche, Google fa uso di un grande numero di “crawler”
(letteralmente “lombrichi”, detti anche “spider” o “bot”).
Si tratta di software speciali che analizzano i contenuti di una
Rete (o di un database) in un modo sistematico e del tutto
automatizzato, simulando il comportamento di un bibliotecario che
cerca fra gli scaffali di un'enorme biblioteca il libro richiesto da
una persona. Ogni qualvolta si effettua una ricerca, i crawler o bot
cercano i risultati fra i milioni di pagine Web acquisite. I crawler
di Google si chiamano Googlebot. Questo processo è detto
indicizzazione. Tramite l'indicizzazione, un sito è riconosciuto
dai motori di ricerca e quindi può comparire nelle pagine generate
dalle interrogazioni degli utenti. I tempi di indicizzazione di un
sito Internet possono variare da pochi giorni a qualche mese. Google
non aspetta che un webmaster segnali un nuovo sito Web, ma analizza
le pagine automaticamente. I webmaster, ossia gli amministratori che
si occupano della realizzazione e della gestione dei siti web,
possono in ogni caso aggiungere un nuovo sito alla sezione Strumenti
per webmaster. In questa
sezione possono anche verificare che Googlebot abbia visitato
correttamente il proprio sito e scoprire eventuali problemi. Dopo
aver registrato i nuovi siti Web, i Googlebot scansionano
periodicamente i siti presentati nei loro archivi per verificare la
presenza di eventuali aggiornamenti o modifiche. Quando un Googlebot
trova un link a un'altra pagina del sito o a un altro sito, analizza
anche questi ultimi. Quando il motore di ricerca termina
l'operazione di scansione dei siti già presenti in archivio comincia
ad analizzare i siti proposti dal webmaster.
Il Googlebot classifica le pagine Web.
Dopo
aver scansionato la Rete e indicizzato, ossia raggruppato, una
grandissima quantità di pagine Web, il motore di ricerca passa alla
seconda fase: classificazione in base a parole chiave che siano il
più possibile attinenti al sito. Le pagine Web catturate dai
Googlebot sono in seguito inviate a un server in cui vengono
memorizzate, in formato compresso. Ogni pagina è associata a un
numero ID detto “docID”, che è assegnato ogni qualvolta è
individuato un nuovo URL. In seguito, ciscun documento è
trasformato in un insieme di parole chiave dette “hit”
(letteralmente “centro”). Sono le parole evidenziate in
grassetto che appaiono nella descrizione dei risultati delle
ricerche. A ciascuna di queste parole chiave sono associate delle
informazioni, come la loro posizione nel documento. Tutti questi
dati sono contenuti in un indice, che raccoglie anche tutti i link
analizzati e, per ciascuno di essi, tutte le pagine a cui il link
punta e quelle che portano a quel determinato link. Tutte queste
informazioni sono usate per stabilire il “voto” della pagina,
ossia il PageRank. Come è stato spiegato, il PageRank di Google
attribuisce alle pagine Web un'importanza che dipende dal numero di
collegamenti provenienti da altri siti Internet che puntano a tale
pagina.
Commenti
Posta un commento
Ciao a tutti voi, sono a chiedervi se avete preferenze per Post di vostro interesse
in modo da dare a tutti voi che mi seguite un aiuto maggiore, grazie per la vostra disponibilità.