TextPower

CNR - ILC - Laboratorio DBTficio - Eugenio Picchi


L'idea di base intorno alla quale è nato il progetto TP è quella di creare tutta una serie di strumenti di analisi del testo, con approcci tanto linguistici quanto statistico-linguistici, per identificare conoscenza linguistica, lessicale, terminologica, semantica da esplicitare, da annotare sul testo, in modo tale da renderla fruibile a qualsivoglia strumento di utilizzazione del testo stesso. Tutto questo nella evidente consapevolezza che quanto maggiormente un testo è ricco di conoscenza esplicitata [1], tanto più il testo può essere analizzato e utilizzato per ulteriori fasi di analisi e di utilizzazione.

Dalla disponibilità di materiali testuali arricchiti (powered) tramite lo strumento TextPower nascono tutta una serie di possibilità e di strumenti di elaborazione.

Possono essere potenziate le funzionalità di classificazione, di categorizzazione e di clustering. Analogamente procedure per estrarre conoscenza dal testo.

E' stato sviluppato un nuovo strumento, che permette l'uso delle informazioni con le quali TextPower ha arricchito i documenti. Si tratta di una specializzazione della tecnologia "a faccette (facets)", proprio del settore dell'archivistica e della biblioteconomia, ma utilizzato anche nell' information retrieval.

Noi abbiamo esteso il concetto di faccette[2], normalmente estratte dai metadati di corredo del documento, sostituendolo con l'insieme di tutte le annotazioni terminologiche, fattuali e named entities che TP ha evidenziato ed annotato in maniera automatica.

Il testo arricchito quindi può essere utilizzato con gli strumenti di analisi, di classificazione, di interrogazione e di navigazione che noi abbiamo sviluppato, a partire dal nostro motore di base DBT (Data Base Testuale), e che noi abbiamo chiamato con il nome di “DBT & Faccette”.

 

 

Applicazioni.

Possiamo dimostrare le funzionalità e le potenzialità della nostra tecnologia per mezzo di una serie di applicazioni nate attraverso lo sviluppo di idee personali o anche attraverso la partecipazione ad alcuni progetti, anche di e-government.

Semantic Press” e “Press4U”: per la gestione di news disponibili in Internet e per la creazione di rassegne stampa automatiche personalizzabili per la specifica istituzione o per lo specifico utente.

La comunicazione socio-sanitaria”: strumenti di analisi di materiale testuale reperibile in Internet e relativo alla comunicazione socio-sanitaria in lingua italiana.

SUBITO“: progetto finanziato dalla regione Toscana in collaborazione con l'Istituto di Fisiologia Clinica del CNR di Pisa e del consorzio CTS nell'ambito del quale sono state create risorse specializzate per l'analisi e l'utilizzo di documenti scientifici in lingua inglese, estratti dalle principali banche dati mondiali (in primis PubMed).

Basilicata Beni cultutali”: navigazione nei siti istituzionali della regione Basilicata per la valorizzazione delle informazioni relative al patrimonio storico artistico e paesaggistico.

I Beni culturali ed il restauro”: raccolta di articoli di giornale riferibili al tema dei beni culturali, analizzati semanticamente per evidenziarne i contenuti relativi al restauro.

AgroAlimentare”:

 

 



[1] Da questa considerazione di base nasce il motto identificativo del sistema TextPower: “testo ricco, mi ci ficco”.

[2] Seth Grimes, “InformationWeek”, january 2010 - Faceted search. Faceted search provides a means of exploring results according to a set of predefined, high-level categories called facets