Tecnologia di Internet
 
Ricerca su web
Gli utenti alle prime armi credono all’esistenza di una specie di “elenco telefonico”, in cui sono conservati gli indirizzi e i contenuti di tutte le pagine web. Una cosa così non esiste, e nemmeno esiste un elenco (che sarebbe più semplice realizzare) di tutti i computer di Internet. Questo elenco sarebbe troppo grande per essere gestito anche dal più potente degli elaboratori attualmente esistenti, ed infatti è stato inventato il DNS proprio per gestire questa situazione.

Tuttavia c’è stato qualcuno che ha creato qualche strumento per cercare informazioni in rete: programmi che catalogano tutte le pagine web che riescono a raggiungere. Questi programmi non sono stati creati da un “ufficio centrale”, come accade per il telefono, ma da qualcuno che ha deciso di scriverli (per interesse culturale o economico o chissà che altro).

Attualmente esistono circa 300 programmi di questo tipo, detti motori di ricerca. Nessuno di questi è esaustivo, ognuno ha i propri metodi di raccolta delle informazioni; per effettuare una ricerca veramente accurata è necessario usarne più di uno: solitamente ne bastano due o tre per trovare ciò che si cerca.

Oggi i servizi di questo tipo hanno quasi sempre uno scopo commerciale, guadagnando sulla pubblicità inserita nelle loro pagine, oppure sul prestigio che portano alle aziende che li mettono in piedi. Internet ha fatto nascere nuove opportunità di business, nuovi mestieri e nuovi mercati: quello della “visibilità” dei siti è uno di tali nuovi mercati.

È utile imparare a conoscere ed utilizzare più di un motore di ricerca e individuare quello che più vi soddisfa. Tenete anche presente che tipicamente, dei siti restituiti da un qualsiasi strumento di ricerca, soltanto una piccola parte sarà effettivamente interessante e correlata all’argomento che vi interessa, mentre molti altri siti interessanti non compariranno.

Motori di ricerca
I motori di ricerca sono di due tipi: quelli che inseriscono nell’indice tutte le parole di tutte le (o di alcune) pagine di un sito e quelli che classificano i siti secondo l’argomento trattato.

I primi sono detti indici di rete (Internet directories). In essi vengono memorizzati gli indirizzi di un grande numero di pagine, divisi per categoria - proprio come nelle Pagine Gialle del telefono. È quindi necessario scegliere la categoria alla quale si è interessati; si riceverà come ritorno un elenco di siti, con i relativi titoli. I siti sono solitamente inseriti su segnalazione degli autori o di singoli utenti; in molti indici l'inserimento è gratuito, mentre altri richiedono il pagamento di una quota. I più noti sono

I secondi sono propriamente detti motori di ricerca (search engines). Si tratta di programmi che passano il loro tempo a viaggiare lungo il web leggendo ogni pagina che incontrano e catalogandole; l'utente può poi inserire una o più parole chiave (keyword) e ricevere in cambio gli indirizzi di pagine che le contengono, solitamente ordinati in funzione del numero di occorrenze e quindi dell’interesse probabile. Anche in questo caso, gli utenti possono segnalare indirizzi; tuttavia, le pagine non sono divise in categorie, ma ne viene memorizzato un breve sommario (in genere il titolo e le prime righe), in base al quale vengono effettuate le ricerche.

    Alta Vista Il motore di ricerca più usato al mondo
    Alta Vista Italia Versione italiana di AltaVista
    Lycos Versione con interfaccia italiana
    Webcrawler Altro ottimo motore di ricerca internazionale
    Infoseek Motore di ricerca della Netscape
    Use It Italiano, non ha un motore proprio
    CRS4 Search Italiano, il primo (in ordine di tempo) motore di ricerca nazionale

Robot
Non appena il web ha iniziato a crescere rapidamente, molti programmatori hanno creato client automatici che cercano di catalogare tutto quello che c'è su web, cioè tutte le pagine HTML esistenti. Questi client, chiamati robot o spider sono programmi intelligenti che autonomamente esplorano una parte del web seguendo ricorsivamente i link nei documenti incontrati.

Un sommario completo dell’argomento si trova in

Un robot ha usi diversi. Il processo di base (trovare una pagina, prelevare gli URL, fare qualche processing, andare allla prossima pagina) è simile per tutti. La loro funzione è definita sull'uso che fanno dei dati trovati.

  • Statistica. Alcuni robot esistono solo per contare il numero dei web server. Questi robot non agiscono in nessun modo su un documento se non estrarre i link in cerca di web server. Agenti statistici più avanzati possono anche traccaire il numero dei documenti per sito, la dimensione media dei documenti, il numero di specifici tipi di file, o addirittura cercare quante occorrenze di uno specifico tag ci sono nei documenti di un sito.
  • Ricerca. I robot più famosi sono quelli usati per creare un database di documenti e file sul web. i primo tori di ricerca sono Lycos e WebCrawler. Sono disponibili diverse varianti. Alcuni robot catalogano l'’ntero testo di un documento, altri solo il titolo e ancora altri cercano di creare un riassunto del documento. Alcuni robot fanno solo ricerca attiva e non mantengono un catalogo statico.
  • Manutenzione. Alcuni robot sono creati apposta per la manutenzione del sito. Lo scopo è verificare l’integratà dei link nel sito e dei link a pagine di altri siti. Normalmente questo robot sono limitati in quanto non vanno oltre un link dal sito. Pososno anche avere la possibilità di verificare la data di ultima modifica di un documento linkato o verificare cambi radicali nella dimensione del file enem contenuto. Un agente del genere è necessario per evitare di accumulare troppi dead links.
  • Mirroring e indexing. Alcuni robot sono usati per mirroring o indiciare altri servizi. Quelli disponibili sono soprattutto per mirroring directoris web e non sono molto sofisticati. Robot più avanzati sono in grado di limitare gli update a solo i file che sono stai modificati e anche di scansionare i documenti in cerca di URL che necessitano di essere aggiornati ad una nuova locazione.

Problemi con i robot

L’uso dei robot implica un certo numero di problemi sia per il sito che esegue il robot sia per il sito con cui il robot si connette.

Il problema più comune è che il robot faccia troppe richieste al server e lo blocchi. Un robot programmato male può bloccare un web server molto più di ogni utente umano. Se è threaded può usare dozzine di connessioni in un colpo solo facendo ricerca ricorsiva sul sito.

Un altro problema con i robot è il loro effetto sulla larghezza di banda. Se il robot è in grado di recuperare file in parallelo, il robot può appropriarsi di una parte della larghezza di banda, il che riguarda tutti gli utenti tra il robot e la sua connessione al backbone.

Una soluzione è usare uno standard per l’esclusione dei robot. Questo standard è una convenzione su un metodo per rendere noto ai robot che non si devono collegare con determinati siti o directories. Si tratta di un file di nome robots.txt localizzato nella radice di un sito o di una directory. Se un robot (ben educato) trova questo file, guarda all’interno per vedere se ha il permesso di entrare nel sito o nella directory.

   
Home | Commenti a Mauro Boscarol | Ultimo aggiornamento 22 dicembre 2000