Perché un modello concettuale per gli archivi può essere utile

Questo blog post nasce in realtà da un commento che stavo scrivendo a un post sul blog archimacerata. Ma la risposta stava diventando troppo lunga e con troppi riferimenti per un commento e inoltre non ho capito come registrarmi per commentare a seguito della nuova policy del blog🙂

Dunque si parlava di un modello concettuale per gli archivi e della sua utilità, in particolare sulla sua utilità per riuscire a scambiarci i dati fra i mille(mila) sistemi, software italiani dove ognuno (pur nel rispetto degli standard) fa quel cavolo che gli pare. Scrive infatti Pierluigi Feliciati:

E poi, siamo sinceri, credi davvero che la disponibilità di una base concettuale più solida (e chi deciderà quando sarà arrivato il momento?) olierebbe la strada per una effettiva collaborazione tra gli stakeholders, se il quadro dovesse essere sempre quello attuale?

La risposta alla pertinente domanda è abbastanza semplice: sono assolutamente sicuro che un modello concettuale per gli archivi non sia sufficiente per garantire l’interscambio dei dati (né tantomeno la cooperazione tra i soggetti in gioco).  Sono però convinto che sia condizione necessaria (non sufficiente) per arrivare a un formato di scambio condiviso (che, anche qui, non è uguale a “cooperazione” ma è un viatico per).

Agnese Galeffi a un recente incontro ISKOI si è interrogata sui modelli concettuali nei mondi BAM per verificare intersezioni fra loro e per verificare se non siano effettivamente facce (o faccette?) diverse della stessa medaglia e per interrogarsi sulla loro utilità.

Con lei ho discusso soprattutto un aspetto. Perché gli archivi non hanno (ancora) un proprio modello concettuale a differenza dei musei (Cidoc) e del mondo bibbliotecario (FRBR+FRAD+FRSAD)?

Beh non ci ho mai ragionato a lungo, ma la mia impressione è che sia in parte “colpa” di EAD (ahia, ecco che il “malcelato pregiudizio” che ritorna :-D) che nel corso del tempo è stato usato per fare altro rispetto a quello per cui era nato (convertire in digitale strumenti di corredo analogici) fino ad assumere il ruolo (che non gli compete) di modello descrittivo e di modello di dati (ma su questo credo di essermi già dilungato in passato con il mio post sul ruolo di EAD). Un ruolo simile ha probabilmente avuto il MARC nel mondo delle biblioteche forse da aditare come uno dei responsabili per la ritardata diffusione di FRBR e compagnia cantando (uhm non oserei mai scrivere un EAD must die, ma un EAD must change forse sì ;-)).

In realtà anche il mondo degli archivi si sta muovendo verso un modello concettuale. E’ di qualche mese fa il “Conceptual model of archival description and basic data requirements for descriptions of records, agents and functions” (quasi 300 pagine in spagnolo, enjoy) redatto dal CNEDA (Comisión de Normas Españolas de Descripción Archivística = Commission on Spanish Standards of Archival Description). E, come dicevo nel commento su archimacerata, anche l’ICA sembra muoversi. Con lento pede, ma non è tanto una questione di “chi deciderà quando sarà arrivato il momento” quanto piuttosto di un percorso in essere che coinvolge molti tavoli e che credo debba prima vedere la conclusione della revisione di EAD, poi l’internalizzazione di un EAG finora qui solo spagnolo (anche se europeizzato dall’uso di Apenet/Apex) poi forse un EAC-F (per le funzioni) e infine una riflessione generale su come queste parti (entità) del mondo archivistico si intersechino fra loro. 2015/2016 per essere ottimisti. Sulla questione che, a mio avviso, il “giro” dovrebbe essere diverso (prima requisiti funzionali, poi modello concettuale, modello di dati, formati di dati etc) ho già detto in passato, ma va beh…

Sì ok tutto molto bello ma in concreto a che servono questi modelli concettuali (si è chiesta Agnese nel suo intervento e  lo chiede anche Feliciati)?
Beh intanto servono a dare lavoro a noi modellatori, che in tempo di crisi non è poco😉

A parte gli scherzi io sono fermamente convinto che l’attività di modellazione e quella di individuazione dei requisiti funzionali (e anche dei requisiti non funzionali) vada di pari passo.

Stilare dei requisiti funzionali senza aver chiaro come si intende rappresentare il mondo di cui si vuole parlare e descrivere è pericoloso perché spalanca le porte al dominio di téchne (leggi formati di dati che diventano modelli di dati, che diventano modelli di descrizione che diventano modelli concettuali).
Un modello concettuale scisso dai requisiti funzionali è invece solo un esercizio onan… ehm di stile fine a sé stesso.

Perché questo modello concettuale potrebbe essere utile nella pratica per arrivare a un formato di scambio condiviso? Cioè in modo tale da aver prodotti che, per dirla con le parole di Federico Valacchi

generi banche dati che sia possibile svincolare agilmente dal prodotto stesso e pubblicare altrettanto agilmente indipendentemente dal prodotto stesso.

Su questo versante un modello concettuale degli archivi fornirebbe in primo luogo l’intelaiatura per tenere in piedi i vari standard descrittivi archivistici completando così il lavoro di armonizzazione già iniziato dal BPS – Sub-committee on archival description.

Ma andando sul concreto un modello concettuale ci porterebbe a identificare di che cosa parliamo e quali siano gli elementi (almeno quelli minimali) per identificare e descrivere il mondo che vogliamo rappresentare.

Infine (e questo è fondamentale nell’ottica di un formato di scambio) analizzerebbe i collegamenti (le relazioni) fra le diverse parti. Lo dico chiaramente (saltando dal piano concettuale a quello del formato di dati): finché il formato di dati avrà una visione record centrica, con le relazioni espresse all’interno della descrizione o comunque all’interno del record dell’entità, non ci sarà mai un formato di scambio realmente efficace (non vi aspettate che EAD2013 lo sia in questo senso… toccherà attendere EADnext). Ma finché non ci sarà un modello concettuale che analizzi specificatamente le relazioni fra le parti queste saranno sempre viste come innestate e interne alla descrizione della singola parte.

Il sogno è quello di giungere a (ammesso e non concesso esista) un’ontologia archivistica. E qui è necessario un accenno al meritorio progetto ReLoad su cui prima o poi vorrei scrivere un post specifico.
Rimandando appunto a una discussione più approfondita l’analisi di quelli che io ritengo essere i punti forti e le criticità di un simile progetto, basta qui rimarcare la distanza e la differenza che c’è fra un’ontologia archivistica (sempre ammesso che sia definibile) e un’ontologia della descrizione archivistica (o, meglio, io direi a un’ontologia di una specifica scelta di descrizione archivistica).

Tutto questo nulla toglie all’attualità di documenti di 8/10 anni fa che hanno ancora molto da insegnare – come sottolinea Feliciati – alla realtà italiana (e non solo).

Ok ho scritto davvero troppo per un blog post e troppo poco per un simile argomento che andrebbe ponderato meglio e dove ognuno dei (mille) temi toccati dovrebbe essere un capitolo di una tesi. E’ possibile che a gennaio, se decidessi di non rinnovare e abbondanare il mio lavoro attuale, potrò ritornare su questi argomenti sviscerandoli a fondo. E magari arrivare a conclusioni diametralmente opposte a quelle attuali.

Tutto questo mi tenta davvero…

5 pensieri su “Perché un modello concettuale per gli archivi può essere utile

  1. beh per definizione le ontologie in ambito informatico non possono definire nulla di “in sé” ma solo descrizioni/modellazioni su un dominio ben definito. Quindi è probabile (auspicabile?) che l’ontologia archivistica possa trovare una sua sintesi naturale “emergente” a partire dalle varie scelte di descrizione più o meno proiettate su domini specifici, no?
    Personalmente una impressione che ho ricavato (da informatico, non addetto ai lavori in senso stretto quindi) dagli interventi, soprattutto nelle domande poste, è che ci sia ancora una forte convinzione da chi lavora in questo ambito che il lavoro di modello vada “difeso” dalle descrizioni emergenti, necessarie ai tecnici in qualche modo. Invece credo che un pregio delle ontologie ad esempio possa essere proprio nel favorire l’emergere (se emergono🙂 di modelli robusti, e che quindi non mettono in discussione le problematiche di integrità, ma in qualche misura le completano, rendendole anche accessibili fuori dai domini, nel mondo “reale”.
    In questo senso non sarebbe male pensare ad una concreta esposizione di dati nella nuvola LOD, sottoscrivo pienamente!🙂

    • beh per definizione le ontologie in ambito informatico non possono definire nulla di “in sé” ma solo descrizioni/modellazioni su un dominio ben definito

      Beh si, la definizione che piaceva di più ai miei (ex) studenti (immagino anche perché era la più facile da ricordare) è quella del 1993 di Gruber “An ontology is an explicit specification of a conceptualization”. A me piace di più la definizione di Studer in Knowledge Engineering: Principles and Methods. Data and Knowledge Engineering (1998) “A formal explicit specification of a shared conceptualization”, perché sottolinea gli aspetti formali (machine-readable) che le ontologie hanno. Il problema è che qui il modello astratto (conceptualizaztion) del fenomeno che vogliamo descrivere non c’è (ancora).

      Quindi è probabile (auspicabile?) che l’ontologia archivistica possa trovare una sua sintesi naturale “emergente” a partire dalle varie scelte di descrizione più o meno proiettate su domini specifici, no?

      imho no… o, meglio, spero di no… spero che l’ontologia archivistica sia, appunto, la rappresentazione formale di un modello astratto che determini i “concetti” (entità/classi, proprietà, relazioni, etc) anch’essi definiti in maniera formale. Se questa ontologia archivistica dovesse essere invece il minimo comune denominatore (o, forse peggio ancora, semplicemente la somma di tutto) dei sistemi archivistici attuali non la vedo bene. Proprio perché si salta il punto di partenza della modellazione (ok se non è il punto di partenza, è il secondo subito dopo la definizione dei requisiti funzionali e non). Peraltro sono entrambe esperienze già tentate in Italia, dove il minimo comune denominatore è sostanzialmente il CAT-SAN (il catalogo delle risorse del sistema archivisitco nazionale) e la somma di tutto è invece il nascente SAS (Sistema Archivistico Statale). Entrambi progetti utili e interessanti, ma non ce li vedo a essere tradotti in ontologia (oh beh è stato fatto per SIUSA lo si farà anche per loro, ma ripeto che dovrebbe essere una cosa diversa).

      In questo senso non sarebbe male pensare ad una concreta esposizione di dati nella nuvola LOD, sottoscrivo pienamente!

      Su questo nel sottogruppo per la revisione di EAD (lo prendo come campione di ciò che immagino succeda a livello globale nella comunità di archivisti e in particolare di archivisti informatici) ci sono due corrente opposte:
      – I web-semantico-scettici: che sostanzialmente dicono che non ci sono evidenti vantaggi visto che sostanzialmente gli archivi descrivono unicum se non nei soggetti produttori e nei luoghi. Ma questi punti di contatto possono essere messi a frutti senza tirare in ballo LOD, RDF e soci. Ad esempio xEAC pesca i luoghi da geognames, e il progetto SNAC utilizza (o utilizzerà) identificativi da dbpedia etc…
      – I web semantici entusiasti che non vedono lora di sparare descrizioni di archivio in RDF nel web

      Poi ci sono quelli come me che stanno nel mezzo…
      Dopo averci speso 3 anni di PhD sulla questione mi sento un entusiasta della prima ora dell’esposizione di dati archivistici direttamente nel web semantico, ma che ora si trova a predicare (a sé stesso) prudenza.

      Ad esempio mi sembra che si stia sottovalutando l’importanza degli identificativi (le Topic Maps avevano questo bel concetto che mi sembra importante di Published Subject Identifier/Indicators, su cui forse varrebbe la pena soffermarsi, soprattutto su quel Published…).
      Oppure mi sembra che si faccia un uso un po’ disinvolto di owl:sameAs che, come direbbe Patrick Hayes, è invece una cosa seria.

      Mannaggia sono riuscito a scrivere troppo anche in un commento, è proprio vero che passati i 30 si invecchia e si inizia a diventare logorroici😀 Va beh ho scritto di getto e non ho neanche aggiunto i rimandi ai progetti, definizioni etc citate… Ma su questo ci voglio/devo ritornare. Chiudo sottolineando che in ogni caso rimango un entusiasta semantic-web boy…
      Adelante Pedro… Cum iudicio

  2. eheh tutto chiaro e abbastanza condivisibile.

    Ovviamente non intendevo alludere ad un minimo comune denominatore (brrr) né tantomeno ad un meltin-pot dove possa finire dentro qualsiasi cosa: quest’ultim osarebbe magari pratico da realizzare ma allontanerebbe proprio dal legame con i domini in qualche modo, o rischierebbe di creare inconsistenze affatto banali.
    A mio avviso però c’è la tendenza a considerare ciò che “emerge” come negativo perché poco formale, non soggetto a verifica. Ma così non è: nessuno vieta una modellazione astratta e formale (certo complicata da ottenere proprio perché c’è il rischio di modellare l’universo mondo), relazionabile con entità emergenti sui vari attori, questo dicevo. E in questo senso RDF, OWL, etc forniscono strumenti decisamente utili. Anche qui: chiaro che non sono panacee e non va confuso un framework di rappresentazione con il modello o peggio con un formato di scambio dei dati🙂
    Però questi ci sono al momento, e ne disponiamo da una 30-ina d’anni, quindi credo potrebbe avere senso inziare intanto ad utilizzarli per esplorare le possibilità di interrelazione, e farsi suggerire “dai dati” (modellati rigorosamente e in modo formale sui vari domini) in che maniera si può collegare le cose. Nessuno vieta dei processi di modellazione aperti e a ciclo continuo, perc così dire, no?🙂

    Riguardo l’importanza degli identificativi sottoscrivo e credo che prima la gente inizierà finalmente a porsi il problema meglio sarà: meglio insomma se prima di pubblicare 1000 dati da dover poi pesantemente rifattorizzare. Qui poi entrano in gioco anche aspetti tecnici da non sottovalutare legati alla effettiva fruibilità da parte delle macchine, ma non voglio aprire finestre🙂

    • e farsi suggerire “dai dati” (modellati rigorosamente e in modo formale sui vari domini) in che maniera si può collegare le cose

      il problema è proprio che di “dati modellati rigorosamenti” il mondo degli archivi proprio non ne ha… (oddio, non che nelle biblioteche dopo anni di Marc si salti dalla gioia… altrimenti tutto il lavoro e studio di Martha Yee avrebbe poco senso).

      Anzi abbiamo il problema di dover gestire strumenti di corredo creati con visioni completamente diverse (penso agli inventari pre-ISAAR ossia a tutti gli inventari creati prima che la descrizione del soggetto produttore assumesse una propria autonomia e struttura rispetto a quella della documentazione).

      Con questo non voglio dire che tutti i sistemi archivistici attuali siano fatti a ca…volo (beh alcuni onestamente sì) senza una precedente opera di concettualizzazione più o meno formale (nel mio piccolo ho anche partecipato a qualche tavolo nazionale in cui ci si è dilettati con questo).
      E in alcuni casi (probabilmente dove non ero presente io :-D) la modellazione potrebbe essere stata quasi impeccabile.

      Però viene meno lo “shared” della definizione di cui sopra.

      Senza quello la rappresentazione formale, l’ontologia, serve a nulla. Tanto è vero che consapevoli di questo che si fa? Ci si appoggia agli standard descrittivi (ISAD e ISAAR, di cui EAC-CPF è uno specchio fedele). Buon tentativo imho ma non è la stessa cosa, perché manca lo sguardo di insieme che tiene insieme questi pezzi.

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...