| Tecnologia di Internet | |||
|
|||
| Gli utenti alle prime armi credono allesistenza di una specie di elenco telefonico, in cui sono conservati gli indirizzi e i contenuti di tutte le pagine web. Una cosa così non esiste, e nemmeno esiste un elenco (che sarebbe più semplice realizzare) di tutti i computer di Internet. Questo elenco sarebbe troppo grande per essere gestito anche dal più potente degli elaboratori attualmente esistenti, ed infatti è stato inventato il DNS proprio per gestire questa situazione.
Tuttavia cè stato qualcuno che ha creato qualche strumento per cercare informazioni in rete: programmi che catalogano tutte le pagine web che riescono a raggiungere. Questi programmi non sono stati creati da un ufficio centrale, come accade per il telefono, ma da qualcuno che ha deciso di scriverli (per interesse culturale o economico o chissà che altro). Attualmente esistono circa 300 programmi di questo tipo, detti motori di ricerca. Nessuno di questi è esaustivo, ognuno ha i propri metodi di raccolta delle informazioni; per effettuare una ricerca veramente accurata è necessario usarne più di uno: solitamente ne bastano due o tre per trovare ciò che si cerca. Oggi i servizi di questo tipo hanno quasi sempre uno scopo commerciale, guadagnando sulla pubblicità inserita nelle loro pagine, oppure sul prestigio che portano alle aziende che li mettono in piedi. Internet ha fatto nascere nuove opportunità di business, nuovi mestieri e nuovi mercati: quello della visibilità dei siti è uno di tali nuovi mercati. È utile imparare a conoscere ed utilizzare più di un motore di ricerca e individuare quello che più vi soddisfa. Tenete anche presente che tipicamente, dei siti restituiti da un qualsiasi strumento di ricerca, soltanto una piccola parte sarà effettivamente interessante e correlata allargomento che vi interessa, mentre molti altri siti interessanti non compariranno. |
|||
| I motori di ricerca sono di due tipi: quelli che inseriscono nellindice tutte le parole di tutte le (o di alcune) pagine di un sito e quelli che classificano i siti secondo largomento trattato.
I primi sono detti indici di rete (Internet directories). In essi vengono memorizzati gli indirizzi di un grande numero di pagine, divisi per categoria - proprio come nelle Pagine Gialle del telefono. È quindi necessario scegliere la categoria alla quale si è interessati; si riceverà come ritorno un elenco di siti, con i relativi titoli. I siti sono solitamente inseriti su segnalazione degli autori o di singoli utenti; in molti indici l'inserimento è gratuito, mentre altri richiedono il pagamento di una quota. I più noti sono Yahoo! Il primo indice di rete I secondi sono propriamente detti motori di ricerca (search engines). Si tratta di programmi che passano il loro tempo a viaggiare lungo il web leggendo ogni pagina che incontrano e catalogandole; l'utente può poi inserire una o più parole chiave (keyword) e ricevere in cambio gli indirizzi di pagine che le contengono, solitamente ordinati in funzione del numero di occorrenze e quindi dellinteresse probabile. Anche in questo caso, gli utenti possono segnalare indirizzi; tuttavia, le pagine non sono divise in categorie, ma ne viene memorizzato un breve sommario (in genere il titolo e le prime righe), in base al quale vengono effettuate le ricerche. Alta Vista Il motore di ricerca più usato al mondo |
|||
| Non appena il web ha iniziato a crescere rapidamente, molti programmatori hanno creato client automatici che cercano di catalogare tutto quello che c'è su web, cioè tutte le pagine HTML esistenti. Questi client, chiamati robot o spider sono programmi intelligenti che autonomamente esplorano una parte del web seguendo ricorsivamente i link nei documenti incontrati.
Un sommario completo dellargomento si trova in Un robot ha usi diversi. Il processo di base (trovare una pagina, prelevare gli URL, fare qualche processing, andare allla prossima pagina) è simile per tutti. La loro funzione è definita sull'uso che fanno dei dati trovati.
|
|||
|
|
|||
| Luso dei robot implica un certo numero di problemi sia per il sito che esegue il robot sia per il sito con cui il robot si connette.
Il problema più comune è che il robot faccia troppe richieste al server e lo blocchi. Un robot programmato male può bloccare un web server molto più di ogni utente umano. Se è threaded può usare dozzine di connessioni in un colpo solo facendo ricerca ricorsiva sul sito. Un altro problema con i robot è il loro effetto sulla larghezza di banda. Se il robot è in grado di recuperare file in parallelo, il robot può appropriarsi di una parte della larghezza di banda, il che riguarda tutti gli utenti tra il robot e la sua connessione al backbone. Una soluzione è usare uno standard per lesclusione dei robot. Questo standard è una convenzione su un metodo per rendere noto ai robot che non si devono collegare con determinati siti o directories. Si tratta di un file di nome robots.txt localizzato nella radice di un sito o di una directory. Se un robot (ben educato) trova questo file, guarda allinterno per vedere se ha il permesso di entrare nel sito o nella directory. |
|||
|
|||