TextPower - Istituto Linguistica Computazionale

L'idea di base intorno alla quale è nato il progetto TP è quella di creare tutta una serie di strumenti di analisi del testo, con approcci tanto linguistici quanto statistico-linguistici, per identificare conoscenza linguistica, lessicale, terminologica, semantica da esplicitare, da annotare sul testo, in modo tale da renderla fruibile a qualsivoglia strumento di utilizzazione del testo stesso. Tutto questo nella evidente consapevolezza che quanto maggiormente un testo è ricco di conoscenza esplicitata [1], tanto più il testo può essere analizzato e utilizzato per ulteriori fasi di analisi e di utilizzazione.

Dalla disponibilità di materiali testuali arricchiti (powered) tramite lo strumento TextPower nascono tutta una serie di possibilità e di strumenti di elaborazione.

Possono essere potenziate le funzionalità di classificazione, di categorizzazione e di clustering. Analogamente procedure per estrarre conoscenza dal testo.

E' stato sviluppato un nuovo strumento, che permette l'uso delle informazioni con le quali TextPower ha arricchito i documenti. Si tratta di una specializzazione della tecnologia "a faccette (facets)", proprio del settore dell'archivistica e della biblioteconomia, ma utilizzato anche nell' information retrieval.

Noi abbiamo esteso il concetto di faccette[2], normalmente estratte dai metadati di corredo del documento, sostituendolo con l'insieme di tutte le annotazioni terminologiche, fattuali e named entities che TP ha evidenziato ed annotato in maniera automatica.

Il testo arricchito quindi può essere utilizzato con gli strumenti di analisi, di classificazione, di interrogazione e di navigazione che noi abbiamo sviluppato, a partire dal nostro motore di base DBT (Data Base Testuale), e che noi abbiamo chiamato con il nome di “DBT & Faccette”.

Applicazioni.

Possiamo dimostrare le funzionalità e le potenzialità della nostra tecnologia per mezzo di una serie di applicazioni nate attraverso lo sviluppo di idee personali o anche attraverso la partecipazione ad alcuni progetti, anche di e-government.

“Semantic Press” e “Press4U”: per la gestione di news disponibili in Internet e per la creazione di rassegne stampa automatiche personalizzabili per la specifica istituzione o per lo specifico utente.

“La comunicazione socio-sanitaria”: strumenti di analisi di materiale testuale reperibile in Internet e relativo alla comunicazione socio-sanitaria in lingua italiana.

“SUBITO“: progetto finanziato dalla regione Toscana in collaborazione con l'Istituto di Fisiologia Clinica del CNR di Pisa e del consorzio CTS nell'ambito del quale sono state create risorse specializzate per l'analisi e l'utilizzo di documenti scientifici in lingua inglese, estratti dalle principali banche dati mondiali (in primis PubMed).

“Basilicata Beni cultutali”: navigazione nei siti istituzionali della regione Basilicata per la valorizzazione delle informazioni relative al patrimonio storico artistico e paesaggistico.

“I Beni culturali” ed il “restauro”: raccolta di articoli di giornale riferibili al tema dei beni culturali, analizzati semanticamente per evidenziarne i contenuti relativi al restauro.

“AgroAlimentare”:

[1] Da questa considerazione di base nasce il motto identificativo del sistema TextPower: “testo ricco, mi ci ficco”.

[2] Seth Grimes, “InformationWeek”, january 2010 - Faceted search. Faceted search provides a means of exploring results according to a set of predefined, high-level categories called facets

TextPower

	CNR - ILC - Laboratorio DBTficio - Eugenio Picchi
L'idea di base intorno alla quale è nato il progetto TP è quella di creare tutta una serie di strumenti di analisi del testo, con approcci tanto linguistici quanto statistico-linguistici, per identificare conoscenza linguistica, lessicale, terminologica, semantica da esplicitare, da annotare sul testo, in modo tale da renderla fruibile a qualsivoglia strumento di utilizzazione del testo stesso. Tutto questo nella evidente consapevolezza che quanto maggiormente un testo è ricco di conoscenza esplicitata [1], tanto più il testo può essere analizzato e utilizzato per ulteriori fasi di analisi e di utilizzazione. Dalla disponibilità di materiali testuali arricchiti (powered) tramite lo strumento TextPower nascono tutta una serie di possibilità e di strumenti di elaborazione. Possono essere potenziate le funzionalità di classificazione, di categorizzazione e di clustering. Analogamente procedure per estrarre conoscenza dal testo. E' stato sviluppato un nuovo strumento, che permette l'uso delle informazioni con le quali *TextPower* ha arricchito i documenti. Si tratta di una specializzazione della tecnologia "a faccette (facets)", proprio del settore dell'archivistica e della biblioteconomia, ma utilizzato anche nell' information retrieval. Noi abbiamo esteso il concetto di faccette[2], normalmente estratte dai metadati di corredo del documento, sostituendolo con l'insieme di tutte le annotazioni terminologiche, fattuali e named entities che TP ha evidenziato ed annotato in maniera automatica. Il testo arricchito quindi può essere utilizzato con gli strumenti di analisi, di classificazione, di interrogazione e di navigazione che noi abbiamo sviluppato, a partire dal nostro motore di base DBT (Data Base Testuale), e che noi abbiamo chiamato con il nome di “*DBT & Faccette”. Applicazioni.* Possiamo dimostrare le funzionalità e le potenzialità della nostra tecnologia per mezzo di una serie di applicazioni nate attraverso lo sviluppo di idee personali o anche attraverso la partecipazione ad alcuni progetti, anche di e-government. “*Semantic Press” e “Press4U”: per la gestione di news* disponibili in Internet e per la creazione di rassegne stampa automatiche personalizzabili per la specifica istituzione o per lo specifico utente. “La comunicazione socio-sanitaria”: strumenti di analisi di materiale testuale reperibile in Internet e relativo alla comunicazione socio-sanitaria in lingua italiana. “*SUBITO“: progetto finanziato dalla regione Toscana in collaborazione con l'Istituto di Fisiologia Clinica del CNR di Pisa e del consorzio CTS nell'ambito del quale sono state create risorse specializzate per l'analisi e l'utilizzo di documenti scientifici in lingua inglese, estratti dalle principali banche dati mondiali (in primis PubMed). “Basilicata Beni cultutali”: navigazione nei siti istituzionali della regione Basilicata per la valorizzazione delle informazioni relative al patrimonio storico artistico e paesaggistico. “I Beni culturali” ed il* “restauro”: raccolta di articoli di giornale riferibili al tema dei beni culturali, analizzati semanticamente per evidenziarne i contenuti relativi al restauro. “AgroAlimentare”: [1] Da questa considerazione di base nasce il motto identificativo del sistema TextPower: “testo ricco, mi ci ficco”. [2] Seth Grimes, “InformationWeek”, january 2010 - Faceted search. Faceted search provides a means of exploring results according to a set of predefined, high-level categories called facets