DigiDISCo2BOA – Claudio Venturini

Vedi gli altri interventi di softxbib 2011

BOA (Bicocca Open Archive) è il repository istituzionale dell’Università di Milano Bicocca nato nel 2008 e che per sua natura ospita documenti di varia natura (per informazioni maggiori su BOA vedi i vari interventi di Bonaria Biancu).

Prima di BOA c’erano già diversi archivi bibliografici in particolare il dipartimento di informatica (DISCo – dipartimento che, per inciso, mi ha tentato molto questa estate per una nuova ennesima laurea) usa tuttora DigiDISCo una digital library (nel senso di digitale nativo) sviluppato ad hoc che viene utilizzata anche per statistiche e valutazioni sulla ricerca e come aiuto nelle scelte sugli sviluppi da prendere.

BOA è un progetto molto ampio basato su Dspace, che richiede un workflow di inserimento maggiormente complesso rispetto a DigiDISCo (5 passi, 25 metadati di cui 10 obbligatorio). Non si può chiedere ai docenti di inserire sia in DigiDISCo sia in BOA (questo sia per questioni di tempo, sia per recuperare in BOA il pregresso presente in DigiDISCo pre 2008, sia per evitare errori che minerebbero la consistenza).

Il problema della comunicazione fra i due repository è accentuato dal fatto che DigiDISCo a differenza di BOA è un software sviluppato internamente che non segue procedure standard, né usa metadati standard.

Tutto semplice? Ovviamente no, anche in questo caso si è dovuta affrontare quell’operazione diffusa (e io ne so qualcosa), ma spesso dolorosa che è il mapping: in questo caso dai metadati “proprietari”  DigiDISCo → dublin core profilo applicativo SWAPEPDCX usato da BOA.

Come spesso accade in queste operazioni di mapping, laddove non si riescano a trovare equivalenza più o meno stiracchiate, bisogna cercare di tappare (derivare) i buchi (i metadati mancanti) soprattutto se i buchi sono in punti strategici (ossia se i metadati mancanti sono obbligatori).

Per esempio in  DigiDISCo non ci sono le parole chiavi e si è cercato di derivarle dal titolo (filtrato tramite liste di stop word previste in 5 lingue) o se si tratta di dati non direttamente derivabili li si integra (es il nome della rivista incrociando una data base di riviste con il codice issn).

Altri metadati, invece, non sono presenti in SWAP (es settore scientifico disciplinare specifico italiano) e, per inserirlo in EPDCX, si usa un namespace proprietario del cilea. Certo poi questi dati dovranno essere standardizzati se si vogliono esportare da BOA.

Già qui Claudio solleva un problema dei metadati in generale e dei mapping in particolare: usiamo la stessa struttura, bene, ma è sufficiente se non condividiamo la stessa semantica? Ovviamente no ed è anche per questo motivo che viene lanciata la proposta di aprire a una standardizzazione, almeno a livello italiano, di questi metadati e dei vocabolari che si usano al loro interno. Pur riconoscendo che nel caso dei settori disciplinari si entra in un guazzabuglio concordo.

Infine si è affrontato il problema di evitare i duplicati, poiché BOA non effettua controlli (se non manuali) ed accetta ciò che gli si da. Per evitare questo al primo caricamento si sono usate tecniche di matching probabilistico fra estrazioni bibtex (se la probabilità era minore di 80% veniva considerato un nuovo inserimento, se maggiore di 90% veniva bloccato, tra 80-90% – solo 60 record – sono stati controllati a mano).

Oltre il controllo al primo blocco di inserimenti è stato previsto un controllo a regime: qui il processo è stato reso più complicato dal fatto che il formato di citazione usato da BO (APA) è poco strutturato, per questo (ma anche per fornire un servizio completo di esportazione delle citazioni)  si sta cercando di superarlo prevedendo un web service che forniscano formati di citazione più strutturati.

Il progetto di Claudio Venturini ha dato luogo anche a una libreria Java che potrebbe essere utilizzato anche da altri dipartimenti seppur con adattamenti. Rimane un grosso problema che è quello dell’aggiornamento dei record (SWORD, il protocollo usato per passare i dati da DigiDISCo a BOA) non sembra supportarlo se ho capito bene) e della consistenza dei dati qualora venissero modificati manualmente (o aggiornati in maniera semi-automatica) in BOA.

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...