Logo Laterza Fabio Metitieri _blank Riccardo Ridi
Logo Laterza Biblioteche in rete Biblioteche in rete Biblioteche in rete
Logo Laterza IndiceVai all'indice completo AcquistoAcquista il volume su www.laterza.it Torna all'homepage
Editori Laterza

Aggiornamento
giugno 2008

Introduzione

1. Le ricerche bibliografiche

2. Information retrieval:
strumenti e strategie

3. Opac e biblioteca virtuale

4. Biblioteche e Opac
nel mondo

5. Biblioteche e Opac
in Italia

6. Biblioteche
e Opac europei

7. Le biblioteche
e gli Opac statunitensi

8. Opac specializzati,
archivi e musei

9. Oltre i cataloghi: i testi

10. Banche dati: archivi
e host computer in Internet

11. Metarisorse generali
e informazioni per bibliotecari

Principali acronimi utilizzati

Bibliografia

Parte prima – Concetti e strumenti

2. Information retrieval: strumenti e strategie

[Introduzione]
Url, gli Uniform resource locator
Telnet, l'emulazione di terminale
L'architettura client/server
Www e ipertestualità
Dai Wais ai gateway Z39.50
Diacritici e caratteri accentati
Information retrieval, strategie di ricerca e operatori logici
Il raffinamento delle ricerche
Visualizzazione, ordinamento, scarico e stampa dei risultati
L'evoluzione delle interfacce tra caratteri e grafica
Altre interfacce: Wap e ambienti in 3D


 

Per poter utilizzare con successo cataloghi, bibliografie e banche dati elettroniche, è indispensabile conoscere il cosiddetto information retrieval, che può essere definito, in senso ampio, come quel vasto insieme di tecniche utilizzate per il recupero mirato dell'informazione elettronica. In senso più stretto, si utilizza spesso tale termine per indicare i linguaggi di interrogazione basati sui comandi testuali tipici delle banche dati commerciali on line e spesso impiegati anche in altri contesti (banche dati su Cd-Rom, cataloghi automatizzati di biblioteche, motori di ricerca e via dicendo).

La distinzione fondamentale alla base dell'information retrieval, a cui si è già accennato e che troppo spesso viene dimenticata nell'era di Google, è quella fra la ricerca di una o più parole all'interno dell'intero testo (full text) di un documento primario come un libro, un articolo o una pagina Web, scritto da un autore con finalità ben diverse (o comunque ben più vaste) da quelle del successivo recupero dell'informazione, e la ricerca delle medesime parole all'interno di testi più brevi e normalizzati (l'abstract, le intestazioni per autore, titolo, soggetto, ecc.) creati dall'autore stesso o da tecnici specializzati proprio per facilitare l'individuazione e la selezione a posteriori del documento stesso.

Un altro dei concetti fondamentali dell'information retrieval, che è bene tenere sempre presente per scacciare la ricorrente chimera di una ricerca «automagical» in grado di sfruttare le miracolose capacità del computer per restituire senza sforzo tutti e soltanto i documenti cercati, è quello del rapporto inverso fra richiamo e precisione.

Il richiamo misura la capacità di recuperare tutti i documenti pertinenti (ovvero considerati rilevanti rispetto all'obiettivo della ricerca) presenti nell'archivio interrogato, mentre la precisione misura la capacità di recuperare soltanto i documenti pertinenti.

Tra richiamo, precisione e documenti trovati vale il seguente schema:

richiamo =

 

documenti pertinenti recuperati nella ricerca

documenti pertinenti esistenti nella banca dati interrogata

 

precisione =

documenti pertinenti recuperati nella ricerca

documenti (pertinenti o no) recuperati nella ricerca

Un esempio può aiutare a capire meglio. Si supponga di trovarsi di fronte a una banca dati bibliografica contenente 1.000 record (ovvero mille «schede elettroniche»), ciascuna delle quali corrisponde a un libro, e che solo 100 di tali libri, e quindi di tali record, siano rilevanti rispetto all'argomento su cui si sta indagando. Si supponga anche che la prima ricerca che si effettua sulla banca dati produca come risultato 200 record, che si analizzeranno uno ad uno, scoprendo che solo 80 di essi descrivono libri rilevanti per gli scopi della ricerca.

In questo caso si potrà dire che la ricerca ha avuto un richiamo molto alto, pari a 80/100, perché si è riusciti a recuperare i quattro quinti dei libri utili; invece la precisione della ricerca è stata piuttosto bassa, pari a 80/200, perché solo due quinti dei record che sono stati individuati corrispondevano a libri utili, mentre gli altri tre quinti (pari a 120/200) che si sono comunque dovuti verificare uno ad uno hanno costituito solo del fastidioso «rumore».

Dal momento che aumentando il richiamo diminuisce la precisione e viceversa, risulta chiaro che una strategia di ricerca che permetta di recuperare in un sol colpo tutti e soltanto i documenti pertinenti contenuti in una determinata banca dati (ovvero quel Sacro Graal costituito dal 100% di richiamo e dal 100% di precisione) è quasi sempre impossibile.

Le strategie di ricerca che aumentano la precisione diminuiscono il richiamo e viceversa; quindi occorre, caso per caso, operare delle scelte e utilizzare con attenzione gli strumenti disponibili per ottenere ciò che è più utile in quello specifico contesto. In genere si privilegia più spesso il richiamo, rassegnandosi a una precisione non ottimale, cioè al «rumore» costituito da una serie più o meno ampia di documenti non pertinenti.

«Dal punto di vista dei costi, in una ricerca in linea, è spesso conveniente accettare una risposta ampia ma non precisa, da riesaminare poi a tavolino, piuttosto che cercare complessi raffinamenti nel corso della ricerca. Al contrario, le ricerche che si svolgono sui cataloghi delle biblioteche sono generalmente finalizzate all'individuazione di pochi testi sull'argomento che interessa» (Alberto Petrucciani, L'indicizzazione per soggetto, in Lineamenti di biblioteconomia, a cura di Paola Geretto, La Nuova Italia Scientifica, 1991, p. 168).

Esistono numerosi linguaggi di interrogazione, ma nonostante alcuni lodevoli sforzi per diffondere linguaggi standard (ad esempio il Ccl, Common command language, dell'Unione Europea), ci si deve rassegnare ad imparare di volta in volta quello necessario per ricercare in una singola banca dati o spesso, per fortuna, in una intera «famiglia» di archivi prodotti o distribuiti dallo stesso soggetto. Molte funzionalità restano comunque costanti, benché chiamate in modi diversi, nella maggior parte delle banche dati, e fra queste il posto d'onore va assegnato ai cosiddetti operatori logici (o booleani), che sono illustrati nelle Figure 1-4.

Figura 1. Intersezione (AND o +): per rintracciare i record che soddisfano entrambi i criteri richiesti. Ad esempio, specificando «promessi AND sposi», si ottengono tutti i record che contengono sia la parola promessi sia quella sposi. Più AND si immettono in fase di ricerca, più si restringe il numero dei risultati. La maggioranza dei sistemi utilizza attualmente l'AND come operatore logico di default.

Figura 2. Unione (OR): per rintracciare i record che soddisfano almeno uno dei criteri richiesti. Ad esempio, specificando «promessi OR sposi», si ottengono tutti i record della banca dati che contengono la parola promessi, tutti quelli che contengono la parola sposi e tutti quelli che le contengono entrambe. Più OR si immettono in fase di ricerca, più si amplia il numero dei risultati. Solo una minoranza di sistemi utilizza attualmente l'OR come operatore logico di default.

Figura 3. Complemento (NOT oppure AND NOT): per rintracciare i record che soddisfano un determinato criterio escludendo quelli che però ne soddisfano un altro. Ad esempio, specificando «promessi NOT sposi», si ottengono tutti i record che contengono la parola promessi tranne quelli che contengono anche la parola sposi.

Figura 4. Esclusione (XOR): per rintracciare i record che soddisfano esclusivamente uno solo dei criteri richiesti. Ad esempio, specificando «promessi XOR sposi», si ottengono tutti i record che contengono la sola parola promessi e tutti quelli che contengono la sola parola sposi, ma non quelli che le contengono entrambe. In realtà l'espressione «A XOR B» è riconducibile alla forma «(A OR B) NOT (A AND B)».

In assenza di parentesi l'ordine con cui vengono applicati gli operatori logici è in genere NOT, AND, OR, XOR, ma dato che alcuni sistemi seguono un ordine diverso è meglio, in caso di dubbio, usare le parentesi, come illustrato nel paragrafo successivo.

Esistono anche numerosi altri operatori, non sempre presenti in tutti i sistemi, utilizzabili per effettuare ricerche più sofisticate. Tra i più importanti vanno citati gli operatori relazionali e di prossimità: i primi rintracciano valori maggiori (>), minori (<) o uguali (=) a quello cercato; i secondi rintracciano i termini cercati solo se presenti (in qualsiasi ordine e a qualsiasi distanza fra loro) nello stesso campo o sottocampo (SAME) oppure solo se presenti (sempre se nel medesimo campo) uno accanto all'altro o a una determinata distanza fra loro, in qualsiasi ordine (NEAR) o nell'ordine dato (ADJ o WITH).

SAME, NEAR e ADJ/WITH possono in un certo senso essere considerati dei veri e propri «super-and» di potenza crescente, che non si accontentano di individuare i record contenenti determinati termini, ma che richiedono in aggiunta delle condizioni supplementari. Solo molto di rado tali operatori vengono utilizzati per default.

Per esempio, se si cerca semplicemente «promessi AND sposi» senza specificare i campi in cui effettuare la ricerca, si rintraccia, fra gli altri, anche un documento dal titolo Gli sposi in Italia scritto da Gino Promessi. Col comando «promessi SAME sposi» si aggiunge la condizione supplementare che entrambi i termini debbano trovarsi all'interno del medesimo campo, mentre con quello «promessi ADJ sposi» si rintracciano tutte le occorrenze all'interno del medesimo campo della frase «promessi sposi» escludendo invece quelle di «sposi promessi».

Con una interfaccia grafica (tipo Web) l'operatore SAME viene utilizzato, implicitamente, ogni volta che si effettua una ricerca in AND all'interno della mascherina relativa a uno specifico campo. Più in generale, la ricerca di determinati termini esclusivamente all'interno di specifici campi (autore, titolo, soggetto e via dicendo), che con le interfacce testuali (tipo Telnet) deve essere esplicitata mediante specifici comandi, diventa implicita con le interfacce grafiche, inserendo l'interrogazione nella mascherina dedicata al campo stesso. In tal caso, volendo invece ricercare un termine contemporaneamente in tutti i campi disponibili, l'interfaccia grafica dovrà prevedere una ulteriore mascherina aggiuntiva ad hoc.

Le banche dati più sofisticate permettono perfino di indicare fino a che distanza reciproca possono essere presenti i termini ricercati. Per esempio, col comando «promessi NEAR2 sposi» si rintracciano tutti i record in cui «promessi» e «sposi» sono presenti nel medesimo campo separati da 0, 1 o 2 parole qualsiasi, ovvero vengono rintracciate le frasi «promessi sposi», «sposi promessi», «promessi e sposi», «sposi e promessi», «promessi e poi sposi» ma non «promessi e non ancora sposi», in cui la distanza fra i due termini è di tre parole.