Logo Laterza Fabio Metitieri _blank Riccardo Ridi
Logo Laterza Biblioteche in rete Biblioteche in rete Biblioteche in rete
Logo Laterza IndiceVai all'indice completo AcquistoAcquista il volume su www.laterza.it Torna all'homepage
Editori Laterza

Aggiornamento
giugno 2008

Introduzione

1. Le ricerche bibliografiche

2. Information retrieval:
strumenti e strategie

3. Opac e biblioteca virtuale

4. Biblioteche e Opac
nel mondo

5. Biblioteche e Opac
in Italia

6. Biblioteche
e Opac europei

7. Le biblioteche
e gli Opac statunitensi

8. Opac specializzati,
archivi e musei

9. Oltre i cataloghi: i testi

10. Banche dati: archivi
e host computer in Internet

11. Metarisorse generali
e informazioni per bibliotecari

Principali acronimi utilizzati

Bibliografia

Parte terza – Oltre i cataloghi: testi e banche dati

11. Metarisorse generali e informazioni per bibliotecari

Indici generali del World Wide Web
La ricerca di informazioni in Rete
L'invisible Web e i motori per la ricerca multimediale
I limiti: la crescita della Rete e il «pay for placement»
La nuova rotta di Altavista e le grandi acquisizioni
L’evoluzione dei motori, da A9 a Mooter
Aib-Web e altre risorse per bibliotecari
Liste, periodici e reference desk per bibliotecari


 

Sebbene i cataloghi, le bibliografie e i repertori esaminati nei capitoli precedenti siano i mezzi migliori per effettuare ricerche bibliografiche in Rete, è bene ricordare che esistono anche strumenti più generali, che tentano di censire e catalogare l'intero contenuto informativo di Internet. Fra queste metarisorse di carattere generale e i progetti di catalogazione descritti nel capitolo 3, un ruolo fondamentale è svolto dagli indici del World Wide Web. Il Web è la parte di Internet cresciuta più rapidamente; se ai tempi della prima edizione di questo libro, all'inizio del 1998, si calcolava che esistessero 300 milioni di pagine, oggi il numero, difficile da stimare, ha probabilmente raggiunto i 10 miliardi. Si descrivono qui, molto rapidamente, le principali tipologie degli indici oggi disponibili.

Indici Web per parola. Detti anche «motori di ricerca» o «search engines», grazie a programmi chiamati «spider» o «robot» raccolgono automaticamente in grandi archivi e permettono di individuare tutte le occorrenze di uno o più termini presenti in una buona parte delle pagine Web mondiali o di una singola nazione. Talvolta i motori ricercano anche tra i messaggi di numerosi gruppi di news. I risultati trovati, purtroppo, non sono sempre pertinenti, anche se questi strumenti vengono continuamente perfezionati per consentire interrogazioni e metodi di ordinamento sempre più sofisticati. Il problema consiste nella difficoltà di far individuare automaticamente a un programma, senza l'intervento di catalogatori umani, omonimie, sinonimie e più in generale il contenuto semantico delle pagine Web.

I maggiori motori di ricerca internazionali sono attualmente il dominante Google <http://www.google.com>, che punta molto sull'individuazione dei siti più rilevanti mediante l'analisi citazionale relativa a quantità e qualità dei link in entrata e in uscita ed è dotato di funzioni di ricerca specializzata per immagini, newsgroups, negozi, fonti giornalistiche, libri e documenti accademici; Yahoo! <http://www.yahoo.com>, noto in passato soprattutto per la sua directory per argomento, ma che dal febbraio 2004, soprattutto grazie all'acquisizione di altri quattro motori, come si dirà in seguito, è in grado di effettuare anche ricerche per parola sull'intero Web utilizzando un proprio archivio e, volendo, una interfaccia specializzata disponibile a <http://search.yahoo.com>; e infine Msn Search <http://search.msn.com> della Microsoft, uscito a febbraio 2005 da una lunga fase sperimentale e pronto a sfidare la supremazia di Google.

Una spanna sotto a questi tre giganti si possono citare Alltheweb <http://www.alltheweb.com> e Altavista <http://www.altavista.com> (che ora sono entrambi di Yahoo!, e ad Altavista si dedicherà più avanti un paragrafo), Gigablast <http://gigablast.com>, il più recente, disponibile da luglio 2002, e Teoma <http://teoma.com>, con interessanti opzioni per l'individuazione dei siti più popolari in una «comunità di esperti». Le dimensioni dei rispettivi archivi vanno dagli 8 miliardi improvvisamente dichiarati da Google nel novembe 2004, raddoppiando i dati forniti per tutto il resto dell'anno, ai circa 4 o 5 miliardi attribuiti da Search engine watch <http://searchenginewatch.com> a Yahoo! e Msn sempre nel novembre 2004, per scendere al miliardo o due a testa degli altri motori citati.

Sono da tenere presenti anche i meno vasti Wisenut <http://www.wisenut.com>, collegato alla directory Looksmart <http://search.looksmart.com>, e Overture <http://www.overture.com>, nato dall'evoluzione di Goto, ormai specializzato nelle formule di ranking a pagamento di cui si parlerà in uno dei prossimi paragrafi, e anche questo acquisito da Yahoo!

Alcuni motori permettono di rintracciare (con una ricerca che viene talvolta definita impropriamente «per concetto» ma che andrebbe chiamata «per somiglianza») ulteriori pagine Web contenenti una certa percentuale di parole uguali a quelle delle pagine già trovate, nel tentativo di recuperare parte del contenuto semantico sfuggito con la ricerca per parole.

Un approccio un po' particolare è quello dei motori studiati per rispondere a domande poste in linguaggio naturale, di solito in inglese. Ask Jeeves <http://www.ask.com>, per esempio, lavora su un archivio che contiene milioni di domande ricevute da parte dei navigatori, grazie al quale riesce sempre a fornire delle risposte, sebbene non sempre rilevanti e quasi mai esaustive.

Per quanto riguarda i siti italiani, dopo che Arianna <http://www.arianna.it> è passato a utilizzare Google, l'ultimo motore di ricerca davvero italiano rimasto è il piccolo Il Trovatore <http://www.iltrovatore.it>, ed è quindi ormai diventato necessario rivolgersi ad apposite ricerche mirate fornite dai motori internazionali oppure dai «portali» italiani trattati più avanti.

Indici Web per argomento. Detti anche «directories» o «subject trees», questi indici sono costruiti da personale specializzato che indicizza e ordina le pagine Web in base al soggetto, scartando quelle meno interessanti e talvolta aggiungendo un breve riassunto e una valutazione. Il lavoro umano garantisce un filtro qualitativo e diminuisce il «rumore» rispetto alle ricerche effettuate coi «search engines» automatici, ma per problemi di costi gli archivi sono di gran lunga più piccoli di quelli usati dai motori, costruiti automaticamente. Per fare un paragone coi dati sui motori di ricerca riportati poco prima si consideri che, nell'aprile 2005, la Open directory <http://dmoz.org>, probabilmente la più vasta esistente, dichiarava di classificare oltre 4 milioni di siti, che erano già circa 3,8 a febbraio 2003, quando Google aveva superato da poco i 3 miliardi di pagine coperte dal suo motore di ricerca per parola.

Nel valutare queste cifre si ricordi però che i motori per parola rintracciano singole pagine (che solo talvolta costituiscono la home page di un sito o di una risorsa), mentre le directory per argomento si focalizzano sui siti o comunque su unità informative compiute.

Pochi di questi indici adottano sistemi formalizzati di classificazione bibliotecaria (Cdd, Cdu, Lc), mentre la maggior parte utilizza una propria gerarchia di classi annidate piuttosto approssimativa dal punto di vista del rigore concettuale. Alcuni, come Yahoo! <http://dir.yahoo.com>, uno dei più conosciuti, al punto di essere considerato una sorta di archetipo di questo tipo di metarisorsa, permettono anche una ricerca per parola all'interno del proprio archivio di «intestazioni», una possibilità che gli utenti meno esperti confondono spesso con la ricerca full text nell'intero webspace tipica dei search engine.

Alcuni indici per argomento, quali per esempio la autorevole e «antica» (in quanto risalente al 1994) Www virtual library <http://vlib.org>, vengono definiti «distribuiti» perché sono costituiti dalla collaborazione tra diversi siti indipendenti, ciascuno dedicato a un determinato argomento.

Nel capitolo 8 sono già stati citati alcuni degli indici più orientati verso le risorse di interesse accademico e bibliografico e altri ancora, più generici, sono stati elencati nel capitolo 4 come mezzo per raggiungere i repertori internazionali di biblioteche e di Opac. Per quanto riguarda i siti italiani, anche in questo caso conviene ormai rivolgersi alle apposite sezioni o versioni delle directories internazionali oppure ai «portali» italiani.

Indici Web per parola limitati a una disciplina. Sono degli ibridi fra le due categorie precedenti, delle quali cercano di unire i pregi. Applicano la potenza «cieca» dei motori di ricerca esclusivamente a un gruppo di siti dedicati a una particolare disciplina o argomento e indicizzati da personale specializzato. Molti di tali Lase (Limited area search engine), dopo la chiusura dei pionieristici Argos e Hippias, dedicati rispettivamente ad antichistica e filosofia, si sono raccolti sotto l'egida del Resource discovery network <http://www.rdn.ac.uk>, un interessante esperimento di progressivo accorpamento cooperativo di più siti settoriali al fine di permetterne una interrogazione per parola cumulativa.

Indici Web retrospettivi. Le pagine Web stanno diventando dei documenti sempre più importanti anche dal punto di vista storico, sebbene la maggioranza degli enti e delle persone che le producono sembrino non rendersene conto, cancellando con noncuranza dai propri siti le versioni precedenti man mano che aggiornano i propri siti. Per fortuna, non solo degli storici del futuro, cominciano a nascere progetti che cercano di ovviare a tale problema, come si è detto nel capitolo 9. Il primo e tuttora uno dei principali è stato l'Internet archive <http://www.archive.org> con la Wayback machine, un indice su cui si possono eseguire ricerche finora solo per Url, per trovare le versioni passate dei siti corrispondenti, salvate ogni sei mesi a partire dal 1996. Un secondo progetto del genere, limitato ai siti interessanti per la cultura inglese, è stato avviato nel 2002 dalla British library, ma non offre ancora archivi consultabili pubblicamente. Anche altre biblioteche nazionali stanno avviando, in modo limitato e sperimentale, iniziative analoghe, e anche Google sta progettando di cumulare e organizzare in modo più stabile le «copie cache» delle pagine indicizzate, consultabili adesso solo una ad una fino al successivo aggiornamento dell'archivio.

Meta-indici. Permettono l'accesso (talvolta anche l'interrogazione, non sempre contemporanea) a un certo numero di indici e repertori primari come quelli elencati finora. In alcuni casi è possibile scegliere se impostare la ricerca direttamente dalla pagina del meta-indice oppure se collegarsi prima a quella dell'indice primario. Vengono chiamati anche «unified search engines», e possono rivelarsi utili, tra l'altro, per testare le differenze fra i vari indici. Alcuni meta-indici permettono di immettere una sola volta i termini di ricerca, lasciando al software il compito di ripetere l'interrogazione su tutti gli indici selezionati e di produrre una risposta cumulativa; il risultato è «sporco», cieco rispetto alle peculiarità dei vari archivi e delle relative tecniche di interrogazione, ma la rapidità e la potenza di questi strumenti li rende comunque interessanti. Possono essere suddivisi in tre sottocategorie: gli indici di indici, i multi-indici e i veri e propri meta-indici in senso stretto.

Indici di indici. Sono semplici liste di link a indici. Più che veri e propri meta-indici sono dei repertori di indici, qualche volta ampiamente commentati. Come esempi, si citano quelli disponibili nel sito italiano Motoridiricerca.it <http://www.motoridiricerca.it> e nei due principali punti di riferimento sui motori a livello internazionale: il già citato Search engine watch <http://www.searchenginewatch.com>, coordinato dal giornalista Danny Sullivan, e Search engine showdown <http://www.notess.com/search>, dell'ex bibliotecario Greg R. Notess. Un elenco ragionato di queste e altre guide, bollettini, bibliografie, notiziari e mailing list dedicati agli strumenti per la ricerca in Internet è curato da Sandra Favret e Sara Franzoso in Aib-Web all'indirizzo <http://www.aib.it/aib/lis/motori.htm>.

Multi-indici. Detti anche Multi-motori. Si tratta di pagine che permettono la ricerca su vari indici, interrogabili però solo uno alla volta, proprio come i Multi-Opac. Tra questi si ricordano Webtaxi <http://www.webtaxi.com> e All in one <http://www.complang.tuwien.ac.at/pirky/allinone>. Molti di questi strumenti, inclusi i due citati, mettono purtroppo in un unico calderone indifferenziato motori, directory e altri generi di indici e repertori. Recentemente il noto motore di ricerca Hotbot <http://www.hotbot.com> si è trasformato in un multi-motore attraverso cui è possibile interrogare i motori Google, Ask Jeeves oppure l'archivio di Inktomi, di cui si parlerà fra poco.

Meta-indici in senso stretto. Detti anche Meta-motori, prevedono un'unica maschera di ricerca che permette l'interrogazione cumulativa di vari indici contemporaneamente, come per i Meta-Opac. I risultati talvolta sono ordinati in base all'indice di provenienza, con eventuali ripetizioni, mentre a volte vengono «schiacciati», eliminando le ripetizioni, e vengono ordinati in base alla supposta rilevanza rispetto alla richiesta oppure ad altri criteri. Spesso il numero dei risultati è sorprendentemente esiguo perché, per evitare una mastodontica cumulazione, vengono presi in considerazione solo i primissimi risultati provenienti da ciascuna fonte. Come esempi si possono citare Metacrawler <http://www.metacrawler.com>, dall'eloquente sottotitolo «search the search engines», Beaucoup <http://www.beaucoup.com> e Mamma <http://www.mamma.com> «The mother of all search engines», oltre a ProFusion <http://www.profusion.com>, su cui si tornerà nel paragrafo sull'«invisible Web».

Si segnala qui anche Vivísimo <http://vivisimo.com>, un meta-indice abbastanza particolare elaborato dal Dipartimento di computer science della Carnegie Mellon University, che può fungere sia da multi-motore che da meta-motore e che ha il pregio di eseguire un raggruppamento automatico per voci dei risultati trovati, suddividendoli in cartelle etichettate con parole associate al contenuto delle pagine Web rintracciate.

Sono interessanti anche i meta-indici che utilizzano un software di tipo client da installare sul proprio Pc, come per esempio Copernic <http://www.copernic.com>, permettendo di memorizzare e gestire in modo più sofisticato ricerche complesse o ripetute nel tempo. Il software Copernic esiste sia a pagamento sia in versione gratuita.

Virtual reference desk (Vrd). Queste utili metarisorse hanno molti altri nomi, quali «virtual library», «electronic reference desk», «gateway», «trailblazer page», «metapage», «homepage» e «hub». Proprio come le sale di consultazione delle biblioteche reali questi reference desk virtuali raccolgono, ordinano e talvolta valutano e commentano le principali fonti informative e i più utili strumenti di ricerca disponibili in Rete, relativamente a una determinata disciplina o argomento (virtual reference desk specializzati) o a Internet in generale (virtual reference desk generali). Talvolta includono anche (o si presentano come) delle guide discorsive alla ricerca che spiegano metodi e trucchi per la ricerca in Rete. Come esempi di virtual reference desk generali si possono ricordare, restando in ambito italiano:

Talvolta l'espressione Virtual reference desk viene utilizzata per indicare non tanto un repertorio consultabile direttamente dagli utenti, quanto un servizio di assistenza personalizzata on line agli utenti stessi, svolto prevalentemente via e-mail da professionisti della ricerca dell'informazione e più appropriatamente definibile come virtual reference service. Numerosi esempi di servizi gratuiti di questo tipo, svolti da bibliotecari in tutto il mondo, sono raggiungibili attraverso il sito The virtual reference desk <http://www.vrd.org>. Anche in Italia cominciano a essere disponibili alcuni servizi di questo tipo, come «Chiedi in biblioteca» della Regione Toscana, raggiungibile a partire da <http://www.cultura.toscana.it/biblioteche/servizi_web>.

Indici Web personalizzabili e agenti di ricerca. Ancora in gran parte sperimentali, questi strumenti mirano a rintracciare autonomamente tutte le risorse di interesse per l'utilizzatore, sulla base della preventiva definizione di un accurato «profilo di ricerca» e, nei casi più sofisticati ma anche più imprevedibili, di decisioni «autonome» dei cosiddetti «agenti intelligenti». In qualche caso utilizzano le tecnologie di tipo «push». Come esempi piuttosto semplici, che si limitano a permettere una riorganizzazione personalizzata dell'ordinamento delle informazioni proposte, si vedano My Yahoo! <http://my.yahoo.com> in ambito commerciale e My Humbul <http://www.humbul.ac.uk/user/login.php> in ambito accademico. Anche l'appena citato Vrd Segnaweb utilizza un'interfaccia personalizzabile di questo tipo.

Portali. Molto utilizzati dagli utenti meno esperti, ma poco adatti ai professionisti della ricerca in Internet, i portali si candidano a costituire il sito di riferimento dei navigatori non solo per la ricerca di informazioni ma anche per ogni altra attività effettuabile in Rete (comunicazione, giochi, acquisti in linea, prenotazione di servizi, e via dicendo). Includono quasi sempre una directory per argomento molto orientata alle necessità della vita quotidiana, un motore di ricerca sviluppato in proprio o mutuato dai maggiori e un insieme dei più svariati servizi: notiziari, quotazioni di borsa, indirizzi e-mail e spazio Web gratuiti, oroscopi, stradari, chat e forum, invio di Sms, previsioni del tempo e così via. Si vedano per esempio, in Italia, Jumpy <http://www.jumpy.it>, Kataweb <http://www.kataweb.it>, Supereva <http://it.supereva.com> e Virgilio <http://www.virgilio.it>. Anche giganti di altre categorie, come Altavista (solo fino a novembre 2002) e Yahoo! (tuttora), si stanno rapidamente «portalizzando» sulla spinta delle pressioni pubblicitarie, anche se con lo «sboom» e con la crisi del settore in questo inizio di millennio molti portali sono falliti o comunque sono in difficoltà. C'è chi li distingue in portali «orizzontali» (cioè generali) e «verticali» (cioè specializzati, denominati talvolta anche col temine «vortali», da «vortals», «vertical portals»). Ai portali è dedicato un capitolo del volume Frontiere di rete. Internet 2001: cosa c'è di nuovo, di Marco Calvo, Fabio Ciotti, Gino Roncaglia e Marco A. Zela (Laterza, 2001), un aggiornamento intermedio dell'ormai classica serie di manuali dei medesimi autori iniziata con Internet '96 e arrivata finora a Internet 2004.