Programma
Ricerca e Sviluppo Interna CSI
Data inizio
Data fine
Tipologia
R&S CSI
Temi
Smart Data Platform

L’obiettivo di questo progetto è di realizzare soluzioni che consentano di trattare e analizzare contenuti testuali che arrivano da diversi flussi e canali. Ad esempio, i contenuti possono essere documenti prodotti da processi interni o ricevuti da cittadini e imprese, e-mail provenienti dai cittadini tramite posta certificata o meno, testi pubblicati su web e social network, e-mail interne, log degli accessi ai portali.

Due le finalità di questa attività di ricerca:

  • individuare e implementare le tecniche, le metodologie e le tecnologie necessarie, in coerenza con l’impianto Big Data disponibile e funzionale ad arricchire le logiche in Yucca - Smart Data Platform (SDP)
  • verificare la fattibilità dei casi d’uso individuati, tra cui in particolare:
    • indicizzazione dei contenuti testuali e documentali presenti nel Data Hub dei Big Data
    • ricerca full-text e dei contenuti indicizzati
    • capacità di elaborazione e trattamento semantico delle ricerche full-text
    • estrazione di informazioni e contenuti testuali dai documenti
    • text mining sui contenuti provenienti da documenti digitali o flussi di dati testuali
    • classificazione automatica dei testi applicata alle e-mail che le amministrazioni ricevono dai contribuenti

Questa ricerca mira infatti a:

  • verificare fattibilità, potenzialità, vantaggi, limiti e implicazioni dell’utilizzo delle tecnologie Big Data per memorizzare e elaborar dati non strutturati, in particolare i documenti digitali e i contenuti di tipo testuale
  • sviluppare uno o più prototipi basati su tecnologie open source e scalabili che consentano di indirizzare sia un motore di ricerca full-text sui contenuti testuali, sia analytics sui testi anche con approcci innovativi e avanzati quali machine learning e tecniche di text mining avanzato
Opportunità
  • estrarre informazioni e analizzare dati da documenti e contenuti testuali precedentemente considerati scatole chiuse non utilizzabili per la comprensione dei fenomeni
  • indirizzare un motore di ricerca con funzionalità semantiche su piattaforma Big Data
  • sfruttare un cluster di sistemi distribuiti (Hadoop), open source e a basso costo per l’indicizzazione e l’analisi di testi e documenti
  • acquisire le competenze per utilizzare tecniche avanzate di classificazione automatica dei contenuti digitali e di sentiment analysis tramite machine learning dei fenomeni
Risultati
  • motore di ricerca full-text basato su tecnologie Big Data
  • indicizzazione avanzata per navigazione a faceting dei risultati
  • classificazione dei testi contenuti nelle e-mail utilizzando l’apprendimento automatico e il machine learning
  • realizzati di due prototipi: motore di ricerca e text analytics sulle e-mail in tema fiscalità

Inoltre:

  • YUCCA - Smart Data Platform: funzione di ricerca sui metadati dei servizi e dei dati esposti su Web Store
  • valorizzazione del patrimonio informativo sanitario regionale mediante l’utilizzo di SDP per una migliore governance regionale
  • text analytics per la classificazione automatica delle e-mail sul bollo auto
  • sistemi di gestione documentale
  • evoluzione Infodir
  • utilizzo di tecnologie 100% open source
  • Indicizzazione a faccette (faceted search)
  • acquisite maggiori competenze sull’integrazione e l’analisi dei contenuti di tipo testuale su piattaforme Big Data