Logo Laterza Fabio Metitieri _blank Riccardo Ridi
Logo Laterza Biblioteche in rete Biblioteche in rete Biblioteche in rete
Logo Laterza IndiceVai all'indice completo AcquistoAcquista il volume su www.laterza.it Torna all'homepage
Editori Laterza

Aggiornamento
giugno 2008

Introduzione

1. Le ricerche bibliografiche

2. Information retrieval:
strumenti e strategie

3. Opac e biblioteca virtuale

4. Biblioteche e Opac
nel mondo

5. Biblioteche e Opac
in Italia

6. Biblioteche
e Opac europei

7. Le biblioteche
e gli Opac statunitensi

8. Opac specializzati,
archivi e musei

9. Oltre i cataloghi: i testi

10. Banche dati: archivi
e host computer in Internet

11. Metarisorse generali
e informazioni per bibliotecari

Principali acronimi utilizzati

Bibliografia

Parte terza – Oltre i cataloghi: testi e banche dati

11. Metarisorse generali e informazioni per bibliotecari

Indici generali del World Wide Web
La ricerca di informazioni in Rete
L'invisible Web e i motori per la ricerca multimediale
I limiti: la crescita della Rete e il «pay for placement»
La nuova rotta di Altavista e le grandi acquisizioni
L’evoluzione dei motori, da A9 a Mooter
Aib-Web e altre risorse per bibliotecari
Liste, periodici e reference desk per bibliotecari


 

Le stime sulle dimensioni del World Wide Web stanno diventando sempre più complesse da fare, molto costose e veloci a invecchiare.

Una cosa è tuttavia certa: i motori non coprono che una parte di quanto si trova in Rete. Se la tecnologia migliora, le dimensioni in continua crescita del World Wide Web e il nuovo fenomeno della commercializzazione dei motori, questioni di cui si parlerà nel prossimo paragrafo, stanno peggiorando molto la situazione.

L'espressione «invisible Web» era nata per indicare le risorse del tutto impenetrabili ai motori di ricerca, come quelle nel formato Pdf, quelle all'interno dei database o quelle comunque difficilmente identificabili e classificabili, come i file di immagini, audio e video.

Tutte queste risorse, che possono comunque essere corredate da una pagina Html che descriva le loro caratteristiche e il loro contenuto, stanno diventando meno invisibili, grazie all'evoluzione dei motori di ricerca.

Oggi, i file in formato Pdf iniziano a essere indicizzati in full text, per esempio da Altavista e Google o da un servizio della stessa Adobe <http://searchpdf.adobe.com>, più piccolo e solo dimostrativo.

I motori stanno iniziando a cercare anche all'interno dei database. Intelliseek <http://www.intelliseek.com> ha rilasciato nel 2001 una nuova versione del sito Profusion <http://www.profusion.com>, un meta-motore di ricerca, con diverse funzioni in più. Profusion è stato ulteriormente migliorato all'inizio del 2005. Ora Profusion, oltre a essere un meta-motore potente e molto comodo (con l'interrogazione di undici motori), offre un'interessante opzione di «specialized searches» con ricerche su diverse fonti, divise per argomento.

Per trovare le risorse esistenti nell'invisible Web, purtroppo, non esistono formule magiche né manuali. Anche The invisible Web di Chris Sherman e Gary Price (Information today, 2001) risulta deludente. La directory di risorse invisibili riportata nel libro è comunque disponibile anche on line all'indirizzo <http://www.invisible-web.net>. Non offre molto di più il recente The hidden Web della docente australiana Maureen Henninger (Unsw press, 2003); è interessante sottolineare che secondo Henninger vi sarebbero ben 550 miliardi di documenti nascosti in archivi non raggiungibili dai tradizionali motori di ricerca.

Per una determinata disciplina, oltre al passaparola tra i ricercatori, che al tempo di Internet può sembrare uno strumento preistorico ma che funziona ancora molto bene, restano validi i consigli di consultare i siti Web delle istituzioni più autorevoli per quel settore e di utilizzare repertori e motori specializzati, come quelli raccolti nelle sezioni «reference» di directories generali come quelle di Lycos <http://dir.lycos.com/Reference> o Google <http://directory.google.com/Top/Reference>.

In Rete, comunque, si stanno facendo progressi persino sull'indicizzazione delle immagini. I motori di ricerca, finora (e anche in questo campo Google è stato ed è tuttora all'avanguardia), hanno cercato le immagini «alla cieca», senza vederle e riconoscerle davvero, ma analizzando soltanto il testo presente nei nomi dei file stessi, nelle pagine in cui le immagini sono inserite e in quello presente nei link che vi conducono. Oggi, una nuova generazione di programmi tenta di svolgere anche il difficile compito di esaminare direttamente la struttura dell'informazione a carattere iconografico.

La messa a punto di filtri per bloccare la pornografia e l'implementazione di motori per controllare l'uso non autorizzato di marchi e logo sono stati i principali obiettivi di Cobion <http://www.cobion.com>, un'azienda tedesca. La Visual intelligence platform di Cobion, che analizza le immagini e sfrutta un sistema di riconoscimento dei caratteri per esaminare le eventuali parole che queste contengono, usa un metodo di analisi dei volti che misura per esempio la distanza tra gli occhi. Il motore di Cobion è stato utilizzato anche dalla polizia tedesca per controllare i siti a contenuto neo-nazista o pedofilo. Esempi realizzati con questa tecnologia sono utilizzabili dai portali tedeschi Dino online <http://www.dino-online.de> e Freenet.de <http://www.freenet.de/freenet>.

Un altro prodotto per le immagini è stato messo a punto da Ereo, che in greco significa cercare. Il motore di Ereo - una start up che vittima dello «sboom» è già stata chiusa - inizia la ricerca in base a parole chiave, ma dopo aver presentato alcune immagini corrispondenti alla stringa digitata chiede all'utente di selezionare quelle più soddisfacenti, ne esamina la struttura e la utilizza, insieme all'analisi del contesto delle pagine, per trovare immagini simili. Ereo non metteva un proprio motore a disposizione dei navigatori, ma ha venduto la sua tecnologia a portali, content provider e grandi motori, come Excite o Minden pictures <http://www.mindenpictures.com>.

Filtro contro la pornografia, motore di ricerca e «image shopper», per scegliere i prodotti da acquistare tramite Web è anche il software proposto da Ltu technologies <http://www.ltutech.com>, con una soluzione sviluppata da un gruppo di ricercatori dell'Inria, l'Istituto nazionale francese di ricerca informatica. Degli algoritmi proprietari analizzano le caratteristiche dell'immagine e costruiscono un indice. Anche in questo caso si procede richiedendo immagini simili a quelle proposte dal sistema.

Un motore vero e proprio, consultabile anche dai navigatori, che vanta 5 milioni di immagini e la possibilità di attivare dei filtri, è stato allestito dalla californiana Ditto <http://www.ditto.com>, che tuttavia fornisce la sua tecnologia anche ad altri operatori.

Non mancano le prime applicazioni concrete e disponibili per il pubblico; tra queste vale la pena di segnalare un lavoro realizzato da Ibm per il museo di Stato Hermitage, di San Pietroburgo <http://www.hermitagemuseum.org>. Qui, nella sezione dedicata alle collezioni digitali, un motore «Query by image content» permette di scegliere i dipinti in base ai loro colori o alle forme presenti, con una soluzione che per ora è poco più che dimostrativa, ma che in futuro potrebbe costituire uno strumento molto valido.

È di dicembre del 2004, infine, l'annuncio di un altro sistema per l'analisi delle immagini, prodotto questa volta dai laboratori di Xerox.

Se l'analisi delle immagini fisse già dal 2000 sembra aver raggiunto buoni risultati, lo sviluppo di nuove applicazioni per la ricerca automatica non si ferma qui: il confine ora si sposta verso l'esame e la classificazione automatica di audio e video.

Per l'audio si segnala l'esperimento di Hp/Compaq chiamato Speechbot <http://speechbot.research.compaq.com>, che sfrutta un sistema di riconoscimento vocale per indicizzare alcuni programmi radiofonici e altro materiale audio.

Per i video, le soluzioni proposte finora non analizzano i video stessi ma li classificano usando loro descrizioni o testi ottenuti altrimenti. Tra i più anziani e meno conosciuti di questi servizi si segnalano l'opzione «video» di Altavista <http://www.altavista.com/video/default> e Singing Fish <http://search.singingfish.com/sfw/home.jsp>, legato al grande provider e portale statunitense America on line. I sistemi di Altavista e Singing Fish indicizzano i filmati presenti on line, che quindi possono essere raggiunti e visualizzati.

Tra la fine del 2004 e l'inizio del 2005 si sono mossi su questo terreno prima il piccolo Blinkx (di cui si parlerà nel paragrafo dedicato all'evoluzione dei motori) e quindi i grandi Yahoo! e Google, a dimostrazione del fatto che la ricerca video sta diventando un mercato appetibile.

Blinkx Tv <http://www.blinkx.tv> indicizza i filmati di alcune emittenti televisive presenti on line. Yahoo! search video <http://video.search.yahoo.com> indicizza solo i video in Rete (anche grazie a una collaborazione con Tv Eyes <http://www.tveyes.com>), di cui mostra dei brevi spezzoni. Il Google video <http://video.google.com>, invece, indicizza i testi dei programmi di otto emittenti televisive statunitensi, dei quali però offre solo dei fotogrammi fissi.

Nel complesso la situazione, soprattutto quando si tratta dell'indicizzazione di programmi televisivi, appare ancora indefinita e confusa, oltre che tecnologicamente immatura. Google, per esempio, non ha neppure accordi precisi con le emittenti di cui tratta i testi e mette on line i fotogrammi. Il dubbio più grande su un eventuale matrimonio tra Internet e televisione è su come potrebbero essere superati i pregiudizi del mondo televisivo nei confronti della grande Rete. In uno scenario dove tutte le ricerche di mercato dimostrano che il tempo che i navigatori dedicano a Internet è tutto tempo rubato all'ascolto televisivo, ci si chiede quali emittenti potrebbero avere il coraggio di stringere partnership con i motori di ricerca senza la paura di esserne fagocitate.