Geolocalizzazione posts di TorinoSparita

(08/12/2019:

VERIFICATO E AGGIORNATO)

 

 

 

 

HeatMap

 

L'obiettivo è ottenere una geolocalizzazione dei post del forum TorinoSparita in modo da permetterne una consultazione attraverso una mappa del territorio invece che attraverso una ricerca testuale tra le ormai molte pagine disponibili, e fornire un accesso al database correlato per ricerche puntuali.

Per ottenere questo risultato è stato necessario:

1) Scaricare localmente tutte le pagine consultabili, tralasciando immagini e links esterni.

(Questa operazione è stata la più 'semplice', utilizzando la classe System.Net.WebClient di C#.)

2) Estrarre da ogni post l'elenco degli indirizzi a cui si fa riferimento, categorizzandoli in vie, piazze, corsi, viali; quindi selezionare separatamente quelli a cui è associato anche un numero civico da quelli che ne sono privi.

Innanzitutto è stato necessario analizzare la struttura dei post e identificare le principali possibili anomalie derivanti dall'uso ambiguo della lingua italiana (per esempio frasi del tipo 'in via precauzionale', o 'in corso d'opera'). E' quindi stata compilata una lista di alcune centinaia di suffissi da escludere quando trovata la parola chiave cercata. Quindi è stata realizzata una classe di identificazione e parsificazione degli indirizzi.

L’analisi consiste:

- nella ricerca basata sul linguaggio naturale di tutte le occorrenze di ‘via’, ‘viale’, ‘piazza’, ‘corso’ cercando di capire se si sta parlando di un luogo o se fa parte di una frase (per esempio il contenuto della frase “la via della perfezione che avvicina al viale del tramonto” non viene indicizzato…)

- una volta accettato il contesto viene fatta una geolocalizzazione attraverso Google Maps API e inseriti i riferimenti in un database SQL Server, ma solo se il risultato appartiene a Torino o dintorni

- Alla fine dell’analisi vengono generati i files KML con gli elenchi dei post geolocalizzati.

(Quindi non ha importanza dove/come/quante volte vengono citati i luoghi nei post… l’idea è proprio quella di non alterare la spontaneità dei post e indicizzare comunque TUTTO quello che corrisponde ad un toponomastico torinese nel modo più corretto possibile.)

3) Per ogni indirizzo, collegarsi al server Google di geolocalizzazione, per ottenerne le coordinate (puntuali nel caso di presenza del numero civico, altrimenti generiche della via), e inserire i dati in un database.

[Per questa fase è stata utilizzata la libreria di classi open source Google Maps API for .NET (https://gmaps.codeplex.com/)]

La pagina di indicizzazione e riassuntiva si raggiunge con http://tswebsearch.apphb.com

Il backup automatico e l'indicizzazione di tutti i nuovi post parte alle 10:00 ogni giorno. Sono sempre presenti TUTTE le pagine (e immagini, quelle non ancora 'sparite'...), dalla prima alla PENULTIMA (perchè l'ultima è ancora in fase di completamento, e non viene nemmeno indicizzata).

Il backup è accessibile DIRETTAMENTE all'indirizzo http://www.mqcvisions.net/TorinoSparita/TorinoSparitaBackup; le pagine si chiamano Page_XXXX.html (dove XXXX sono 4 caratteri numerici), e il numero della pagina è quello che si genera quando si accede a TorinoSparita SENZA EFFETTUARE IL LOGIN. Se il numero della pagina è espresso con meno di 4 caratteri, aggiungere zeri all'inizio.

Per esempio, la pagina 400 (0400) è raggiungibile con http://www.mqcvisions.net/TorinoSpar...Page_0400.html

Se si parte dalla pagina di accesso al database (tswebsearch.apphb.com), in alto in centro c'è un campo "Go to backup page" in cui inserire il numero della pagina; premendo il pulsante 'GO' viene aperta automaticamente la pagina di backup.

Inoltre, per ogni post indicizzato presente nella pagina di consultazione, c'è un corrispondente nella colonna 'Backup' che apre automaticamente la pagina di backup che lo contiene.

La ricerca... basta inserire anche solo una parte del nome cercato nel campo 'Search' e premere il bottone 'Start Search', e la visualizzazione viene limitata ai toponimi che lo contengono. Per ritornare alla visualizzazione completa premere il tasto 'Reset Search'.

Per scaricare i KML, sempre aggiornati automaticamente, scegliere quello desiderato dalla lista 'Generated KMLs' e premere il tasto 'Download'.

4) Nel caso di risultati ambigui forniti durante la geolocalizzazione (vie inesistenti a cui vengono associate coordinate errate o non a Torino, per esempio), selezionare tra le varie possibilità quella corretta. In tal modo indirizzi digitati erroneamente o non completi possono essere corretti.

E' stato necessario comprendere il formato delle risposte multiple con approssimazione del server di geolocalizzazione.

Purtroppo nel corso del tempo si sono evidenziati alcuni errori nella determinazione delle coordinate da parte di Google, che sono stati di volta in volta corretti. Alcuni sono ancora presenti, e sarà a breve modificato manualmente il database per porvi rimedio.

5) Generazione di files KML per la visualizzazione delle mappe risultanti attraverso Google Earth o tramite Google Maps, con per ogni punto l'indicazione grafica della categoria, e come dati associati la lista navigabile dei post di Torino Sparita che fanno riferimento al punto stesso. Il numero di post presenti per ogni punto è indicato tra parentesi dopo l'indirizzo. L'indirizzo non è necessariamente codificato come nel post relativo, ma come conosciuto dal server di geolocalizzazione.

La gestione veloce dei files KML è stata possibile mediante la splendida libreria di classi open source SharpKML (https://sharpkml.codeplex.com/).

Purtroppo per motivi di security Google non ha più reso possibile la pubblicazione dinamica delle mappe su My Maps.

I files KML relativi, apribili direttamente in Google Earth (la migliore scelta), sono i seguenti:

- Vie senza numero civico

- Vie con numero civico

- Corsi senza numero civico

- Corsi con numero civico

- Piazze senza numero civico

- Piazze con numero civico

- Viali senza numero civico

- Viali con numero civico

Nel caso di utilizzo in Google Earth, cliccando sul link al post si può navigare il forum direttamente senza passare dal browser, in modalità 'single post'; alternativamente, cliccando sul link 'torino sparita' evidenziato in rosso, si passa a visualizzare la pagina che contiene il post linkato.

Per un accesso utilizzando Google Maps, usare questi link:

- Vie senza numero civico

- Vie con numero civico

- Corsi senza numero civico

- Corsi con numero civico

- Piazze senza numero civico

- Piazze con numero civico

- Viali senza numero civico

- Viali con numero civico

BUONA NAVIGAZIONE!

 

MQCVisions home page