Sistema Intelligente per il Monitoraggio e il Ripristino dei siti soggetti all’abbandono illecito di rifiuti
Lo sviluppo di un sistema di supporto al contrasto del fenomeno di sversamento illegale di rifiuti: questo l’obiettivo del progetto SIMR (“Sistema Intelligente per il Monitoraggio e il Ripristino dei siti soggetti all’abbandono illecito di rifiuti”) ideato e curato da Wonderlab. Per realizzare il progetto, bando di ricerca e sviluppo finanziato da POR CAMPANIA FESR 2014/2020, sono state integrate soluzioni di Natural Language Processing finalizzate all’individuazione dei siti, alla caratterizzazione degli stessi e naturalmente all’avvio e al controllo del processo di ripristino ambientale.
Il Natural Language Processing (NLP) è una disciplina molto vasta che si occupa dell’analisi e dell’elaborazione del linguaggio umano al fine di rendere i computer capaci di interagire con l’uomo. In questo frangente si fa riferimento all’applicazione delle tecniche di NLP per l’analisi dei testi di verbale di denuncia di abbandono dei rifiuti scritti in lingua italiana. Nello specifico, tecniche di NLP hanno consentito di automatizzare la comprensione di verbali di denuncia compilati da cittadini o forze dell’ordine per poter avviare prontamente procedure di ripristino. Tale operazione rappresentava difatti un collo di bottiglia dell’intero processo di monitoraggio e ripristino in quanto era richiesto necessariamente un intervento umano per l’individuazione del sito segnalo dal verbale di denuncia. Tramite invece il NLP, il sistema è in grado di estrarre dalla documentazione non strutturata, contenuta nelle denunce, dati strutturati, al fine di inserirli nel database e utilizzarli nella fase successiva di elaborazione degli stessi.
Per poter avere ottimi risultati è stato inoltre creato un dataset documentale, anche detto training set, per il training del sistema così da acquisire sempre più conoscenza ed estrarre in modo corretto le giuste informazioni dal testo. Un training set per sistemi di intelligenza artificiale (chiamato in letteratura anche corpus) per NLP è costituito un insieme di documenti in linguaggio naturale dotati delle rispettive etichette, o annotazioni, la cui estensione sia sufficiente per addestrare un sistema di IA con il necessario livello di precisione. Più grande è il training set più accurati saranno i risultati ottenuti dal sistema di NLP. In seguito al training del sistema tramite il dataset documentale sono stati poi effettuati la validazione e i test dei risultati ottenuti dall’estrazione.
Il sistema sviluppato ha messo in luce la possibilità di estrarre da un testo non strutturato, come un verbale di denuncia o un esposto informale, con successo e in maniera semplice e intuitiva le informazioni di:
- ubicazione,
- estensione
- caratterizzazione dei materiali presenti in una microdiscarica
- coordinate geografiche
Questi dati sono poi diventati input di altre elaborazioni e hanno contribuito ad aggiornare una web map per la visualizzazione multilayer delle informazioni geografiche, di descrizione e sullo stato di lavorazione dei siti.