Biblioteca accessibile – Centro di Ateneo per le Biblioteche e il Servizio Disabilità dell’università di Padova

Vedi gli altri interventi di softxbib 2011

Il progetto biblioteca accessibile è partito da un censimento e successiva indagine su oltre 5000 strutture, è proseguito con un’indagine incentrata soprattutto sui formati usati (variegati) e si è concretizzato poi nel portale che ha lo scopo principe di promuovere e favorire l’accesso agli utenti disabili.

I materiali dei “sistemi afferenti” sono di tipo eterogeneo e quindi anche descritti con metadati differenti, inoltre molte strutture non hanno competenze o sistemi informatici avanzati e dunque invece di imporre un determinato protocollo di comunicazione si è cercato di fornire uno strumento per favorire la messa in linea delle risorse

La scelta di una strategia attiva anziché passiva mi sembra di particolare interesse: nei progetti con cui ho avuto la ventura di collaborare, ad esempio il SAN (Sistema Archivistico Nazionale), sono sempre state definite procedure e formati rigidi per l’invio dei dati (se non li mandi come vogliamo noi non li prendiamo). Questa scelta molto pragmatica mi sembra vincente, anche se devo riflettere su quanto possa essere applicata su larghi bacini.

I sorgenti da gestire sono dunque di vario tipo: libri da inserire direttamente, recuperati z39.50, recuperati dall’accesso diretto dal portale dell’istituzione → cercando di recuperare liste di libri in formato html poi analizzando i risultati attraverso un parser configurabile, file da importare, CSV, OAI etc). Per ognuna di queste fonti è stato creato un apposito retriever che prendesse l’oggetto, lo normalizzasse e lo inviasse a un populator (che nel caso specifico è un indice, visto che l’obiettivo è essenzialmente quello di permettere ricerche).

Parsare l’html è ovviamente piuttosto difficile per la macchina, ma basandosi sull’assunto che la formattazione all’interno di un portale sia la stessa si possono creare parser che riescano a estrarre alcuni dati. Intrigante l’idea che in attesa del web semantico, di un web che si racconti da sé, si recupera quello che si può.

Entrando nello specifico, il portale utilizza il CMS opensource Plone. In realtà davanti a plone si utilizza Deliverance che permette di ottenere un html ancora più accessibile rispetto a quello di plone.

Piero Cavaleri chiede se e come abbiano affrontato il problema della deduplicazione: attingendo da varie fonti, sopratutto via OAI è un problema serio e crescente.

Ad oggi, per questo progetto, non è stato ancora necessario affrontare questo problema, certamente con il moltiplicarsi delle fonti il problema si presenterà.

Già… E non pensiate che gli archivi (che sostanzialmente gestiscono esemplari unici) ne siano esenti. All’interno del SAN confluiranno record di Lombardia Archivi e di Siusa, peccato che diversi recordi di Lombardia Archivi siano anche dentro Siusa.

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...