RDF & Open Linked Data un primo approccio – THGenius la ricerca nel web semantico – Tiziana Possemato @Cult

Vedi gli altri interventi di softxbib 2011

Si parte dagli obiettivi della ricerca bibliografica (il caro vecchio FRBR con l’aggiunta, ormai consolidata, del browsing a completare i fantastici 4 find, identify, select e obtain).

La considerazione di partenza è che gli utenti usano il web invece della biblioteca, l’obiettivo è dunque aumentare il feeling fra biblioteca e web.

THGenius gestisce SKOS, FOAF, RDF/DC che è il formato principe per aprire il mondo del catalogo al web.

L’idea (beh direi ormai abbastanza nota) è quella di esporre i dati della biblioteca nel web non più come un catalogo monolitico, ma come linked reference, puntatori a diverse risorse.

THGenius permette la gestione di più thesauri (non in contemporanea a differenza di ciò che si diceva nell’intervento precedente) in più lingue (sul problema di thesuari multilingua rimando però all’intervento di Laura Ballestra a Teca del mediterraneo 2008) prevedendo un modulo di gestione per l’ampliamento locale del tesauro.

THGenius ha la possibilità di estrarre keywords o keyphrase da un documento non catalogato, in maniera automatica o semiautomatica.

I dati vengono estratti sia dai metadati del documento, sia dal contenuto.

Alcune note personali:

In questo caso l’estrazione automatica viene raffinata poi attraverso confronto con tesauri. L’esempio che viene mostrato è con Moby Dick con risultati raffinati da confronti ora con lcsh o mesh (ovviamente applicare un tesauro o l’altro cambia molto, visto il differente dominio).

A me pare comunque che il risultato ottenuto sia estremamente modesto es (“leg” che soggetto è per Moby Dick? Piero Cavaleri aggiunge: che relazione c’è tra quel termine e il documento? Qual è la semantica di questa relazione?), forse si tratta solo di settare meglio le soglie di rilevanza (che comunque non risolvono il problema della povertà semantica della relazione), ma rimango comunque scettico.

OseeGenius è un opac arricchito che utilizza i dati che gli vengono passati da THgenius per la navigazione.

Interessante la possibilità di cercare termini non preferiti (es fanciullo) ottenendo documenti indicizzati in realtà per il termine preferito (bambino), sfruttando così a pieno le potenzialità del tesauro (nel caso specifico il nuovo soggettario di Firenze). Fanciulli è poi un esempio simbolo perché oltre al thesaurus entra in ballo anche lo stemming (Fanciulli → Fanciullo → Bambino) .

8 pensieri su “RDF & Open Linked Data un primo approccio – THGenius la ricerca nel web semantico – Tiziana Possemato @Cult

  1. Un’osservazione riguardo ai metadati dei file pdf. Credo sia un problema molto sottovalutato, tenendo conto che le pratiche di archiviazione e preservazione spesso prevedono un cms nel quale gli “item” sono composti da risorsa + metadati in maniera separata. Ma la risorsa in sé (il documento pdf ad esempio) nel momento in cui viene aperto o scaricato è un file anonimo e indipendente.

    Si prendano ad esempio gli item di Dspace: il documento vero e proprio è di fatto un allegato, che una volta aperto diventa un file temporaneo sul nostro pc, ignaro della sua provenienza dal deposito, e non si porta dietro i metadati! Questa disattenzione da parte di chi crea il pdf secondo me è un problema da non sottovalutare: ci vorrebbe più “educazione” anche a livello del semplice lavoro di ufficio nella gestione dei metadati dei file. Insomma, anche noi che per definizioni saremmo i “professionisti dei metadati” cadiamo su questi dettagli!

    Non conoscevo l’articolo di Zhou, che è molto interessante proprio per il taglio pratico e dettagliato che adotta – più sul piano della riproduzione che su quello della descrizione dei documenti, mi sbaglio?

    Enrico

    • Sì Enrico hai ragione, l’articolo non c’entra nulla con quel problema…

      Questo lo avevo indicato a una lezione sulla diglital library e probabilmente mi è rimasto in mente e lo ho associato a un aspetto sbagliato del trattamento dei PDF.

      Purtroppo non riesco a trovare quello che volevo indicare, ma che sostanzialmente fa proprio l’esempio che fai tu. Cercherò di ritrovarlo. Del resto l’importanza di avere metadati incorporati (embedded) è sentita da molti http://jjoergensen.wordpress.com/2010/01/04/embeded-metadata-please-3/

      Ed è recepita anche nelle buone pratiche di progetti di digitalizzazione come quello dell’Harvard University http://hul.harvard.edu/ois/digpres/docs/OIS_recs_for_pdf.pdf
      Ironia della sorta mi sembra che anche la stessa raccomandazione segua solo parzialmente le buone pratiche che propone

  2. Una precisazione rispetto alla scopo della indicizzazione ‘automatica’ o semiautomatica che stiamo studiando e testando: si tratta comunque di approssimarsi il più possibile, allargando o stringendo gli algoritmi di derivazione delle parole chiave, ad un risultato ‘accettabile’, assumendo come principio di base che quello che riuscirebbe a fare un operatore attraverso l’osservazione e lo studio del contenuto del documento è assolutamente inarrivabile. Ma il principio di partenza è: chi potrebbe mai pensare che vengano trattati manualmente (sia da un punto di vista di catalogazione descrittiva che semantica) i documenti oggetto di questa sperimentazione? Chi avrebbe mai le forze di includere il mare di documentazione prodotta da un ente nel normale ciclo catalografico? Qui si tratta di studiare un sistema che, per quanto lontano dall’ottimo, possa in parte colmare una lacuna profonda che nessuno pensa di trattare in altro modo. Non si parla mai, in queste sperimentazioni, di processi automatici che possano in qualche modo sostituire altre funzioni manuali. Penso che questo principio di applicabilità di processi automatici a documentazione che mai altrimenti avrebbe una qualche forma di trattamento serve a fare in modo che al di là delle ambizioni teoriche e ‘puristiche’ (fondamentali ove possibili) venga realizzato, o quanto meno sperimentato, qualcosa di pratico, e comunque utile.
    Ogni suggerimento, dunque, su come meglio raggiungere l’obiettivo è assolutamente ben accetto.

    • Premetto che non sono un esperto di NLP, anzi nel campo sono solo un amatore che ha “giocato” un po’ con GATE e, come detto, con l’autoclassifier della suite ontopia.

      Come accennavo sono convinto che lavorando sulle soglie si possa pulire molto il risultato e sono altresì convinto che, almeno al momento, non si possano minimamente raggiungere i risultati dell’analisi manuale.

      Dunque che fare? In assenza dell’ottimo rifiutare il bene (o il sufficiente)? Beh dipende, ci sono realtà dove vengono cassati risultati che non raggiungono una determinata soglia (che io classificherei più verso l’ottimo) penso ad alcune digital library (come la BSB) che non mettono a disposizione l’ocr perché giudicano troppo elevata la soglia di errore (si parla di frazioni centesimali).

      Ad esempio l’accesso alla documentazione di un ente (da archivista) la vedrei maggiormente e proficuamente guidata da una corretta rappresentazione del contesto dei documenti piuttosto che dall’indicizzazione a tappeto.
      Credo che alla fine il problema sia sempre lo stesso: rumore vs silenzio. Bisogna trovare un equilibrio, non è facile certo. A volte un’estrazione automatica di keyword può essere un toccasana, a volte no.

      Certo, se ci troviamo dinnanzi a una montagna di carta (virtuale) indistinta, estrarre l’estraibile è l’unica via percorribile per permettere in qualche modo di fornire un accesso all’utenza. L’idea poi di filtrare i risultati attraverso un tesauro non può che contribuire ad abbassare il rumore che è il vero nemico di queste operazioni.

      A tal proposito, credo che l’estrazione automatica funzionicchi un po’ meglio con i nomi e i luoghi… Non ho idea se il software che usate si occupi anche di NER (named entity extraction), ma in questo sottocampo si possono ottenere risultati certamente maggiormente precisi, filtrando poi in qualche modo i risultati (in questo caso invece del tesauro potrebbe intervenire wikipedia stessa, si veda Large-Scale Named Entity Disambiguation Based on Wikipedia Data di Silviu Cucerzan o opencalais)

  3. Una domanda tecnica sui metadati nei documenti (word, pdf, ecc.)
    Come giustamente fai notare, il nome dell’autore di un documento viene preso dal nome dell’utente del computer. Mentre gli altri metadati (titolo, argomento, parole chiave) possono essere impostati nelle “proprietà” del file, il campo “autore” sembra non essere modificabile, neanche intervenendo sulle Opzioni generali di OpenOffice. Tu sai come si fa?

  4. Ciao Enrico, questa è una delle pecche di openoffice, che spesso casca non tanto sulle funzioni mancanti che usa una persona su 100000, ma su piccolezze che risultano piuttosto noiose…

    alcuni discussioni a riguardo
    http://www.oooforum.org/forum/viewtopic.phtml?t=66788
    http://www.oooforum.org/forum/viewtopic.phtml?t=56107

    nel secondo c’è una macro che non ho provato ma sembra promettente, rimane comunque lo scetticismo nel dover adottare pezze di questo genere

    • Guarda, ritiro tutto!
      Alla fine è facilissimo – ringrazio il forum di Ubuntu – basta cliccare su “Ripristina” dopo aver spuntato la casella “Usa dati utente” (i dati generali delle opzioni di OpenOffice), ed ecco che i dati utente vengono “riversati” nelle proprietà del documento🙂

      • Sì certo, questo però funziona sin tanto che l’autore del documento coincide con il proprietario di openoffice… cioè se tu presti il pc a un altro deve cambiare i dati utenti di openoffice per poter risultare come autore del documento… un po’ cervellotico…

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...