TextPower |
|
CNR - ILC - Laboratorio DBTficio - Eugenio Picchi | |
L'ide Dalla disponibilità di materiali testuali arricchiti (powered) tramite lo strumento TextPower nascono tutta una serie di possibilità e di strumenti di elaborazione. Possono essere potenziate le funzionalità di classificazione, di categorizzazione e di clustering. Analogamente procedure per estrarre conoscenza dal testo. E' stato sviluppato un nuovo strumento, che permette l'uso delle informazioni con le quali TextPower ha arricchito i documenti. Si tratta di una specializzazione della tecnologia "a faccette (facets)", proprio del settore dell'archivistica e della biblioteconomia, ma utilizzato anche nell' information retrieval. Noi abbiamo esteso il concetto di faccette[2], normalmente estratte dai metadati di corredo del documento, sostituendolo con l'insieme di tutte le annotazioni terminologiche, fattuali e named entities che TP ha evidenziato ed annotato in maniera automatica. Il testo arricchito quindi può essere utilizzato con gli strumenti di analisi, di classificazione, di interrogazione e di navigazione che noi abbiamo sviluppato, a partire dal nostro motore di base DBT (Data Base Testuale), e che noi abbiamo chiamato con il nome di “DBT & Faccette”.
Applicazioni. Possiamo dimostrare le funzionalità e le potenzialità della nostra tecnologia per mezzo di una serie di applicazioni nate attraverso lo sviluppo di idee personali o anche attraverso la partecipazione ad alcuni progetti, anche di e-government. “Semantic Press” e “Press4U”: per la gestione di news disponibili in Internet e per la creazione di rassegne stampa automatiche personalizzabili per la specifica istituzione o per lo specifico utente. “La comunicazione socio-sanitaria”: strumenti di analisi di materiale testuale reperibile in Internet e relativo alla comunicazione socio-sanitaria in lingua italiana. “SUBITO“: progetto finanziato dalla regione Toscana in collaborazione con l'Istituto di Fisiologia Clinica del CNR di Pisa e del consorzio CTS nell'ambito del quale sono state create risorse specializzate per l'analisi e l'utilizzo di documenti scientifici in lingua inglese, estratti dalle principali banche dati mondiali (in primis PubMed). “Basilicata Beni cultutali”: navigazione nei siti istituzionali della regione Basilicata per la valorizzazione delle informazioni relative al patrimonio storico artistico e paesaggistico. “I Beni culturali” ed il “restauro”: raccolta di articoli di giornale riferibili al tema dei beni culturali, analizzati semanticamente per evidenziarne i contenuti relativi al restauro. “AgroAlimentare”:
[1] Da questa considerazione di base nasce il motto identificativo del sistema TextPower: “testo ricco, mi ci ficco”. [2] Seth Grimes, “InformationWeek”, january 2010 - Faceted search. Faceted search provides a means of exploring results according to a set of predefined, high-level categories called facets |
|