Trovare errori encoding

classic Classic list List threaded Threaded
9 messages Options
Reply | Threaded
Open this post in threaded view
|

Trovare errori encoding

pcav
Salve,
come noto, l'importazione di uno shapefile, o anche altri formati, in un
db è generalmente un'operazione a rischio, perché i caratteri accentati
possono non essere interpretati correttamente. Talvolta ci si accorge
della cosa solo molto tempo dopo, quando magari si sono creati dati
derivati ecc.
La domanda: sapete che si sia una query già pronta, o un altro sistema,
per accorgersi se in una tabella c'è un qualsiasi carattere "strano",
convertito non correttamente?
Saluti, e grazie.
--
Paolo Cavallini - www.faunalia.eu
QGIS & PostGIS courses: http://www.faunalia.eu/training.html
_______________________________________________
[hidden email]
http://lists.gfoss.it/cgi-bin/mailman/listinfo/gfoss
Questa e' una lista di discussione pubblica aperta a tutti.
I messaggi di questa lista non hanno relazione diretta con le posizioni dell'Associazione GFOSS.it.
807 iscritti al 31/03/2016
Reply | Threaded
Open this post in threaded view
|

Re: Digest di Gfoss, Volume 130, Numero 20

Lorenzo Luisi
Buonasera, sono Lorenzo Luisi e rispondo a questa richiesta:
"Trovare errori encoding" proposta da Paolo.
Ebbene non ho una procedura pronta, ma con degli shapefile della Regione
Puglia ho sempre a che fare con questi caratteri strani che inserisco fra
apicetti:

“'” (apostrofo)

“,” (virgola)

“¨”

“ù”

“pi¨”

Li elimino con OpenOfficeCalc uno per volta.

Spero sia di utilità,

Lorenzo Luisi



Il giorno 16 aprile 2016 12:00, <[hidden email]> ha scritto:

> Invia le richieste di iscrizione alla lista Gfoss all'indirizzo
>         [hidden email]
>
> Per iscriverti o cancellarti attraverso il web, visita
>         http://lists.gfoss.it/cgi-bin/mailman/listinfo/gfoss
> oppure, via email, manda un messaggio con oggetto `help' all'indirizzo
>         [hidden email]
>
> Puoi contattare la persona che gestisce la lista all'indirizzo
>         [hidden email]
>
> Se rispondi a questo messaggio, per favore edita la linea dell'oggetto
> in modo che sia più utile di un semplice "Re: Contenuti del digest
> della lista Gfoss..."
>
>
> Argomenti del Giorno:
>
>    1. Trovare errori encoding (Paolo Cavallini)
>
>
> ----------------------------------------------------------------------
>
> Message: 1
> Date: Sat, 16 Apr 2016 07:17:42 +0200
> From: Paolo Cavallini <[hidden email]>
> To: "GFOSS.it" <[hidden email]>
> Subject: [Gfoss] Trovare errori encoding
> Message-ID: <[hidden email]>
> Content-Type: text/plain; charset=iso-8859-15
>
> Salve,
> come noto, l'importazione di uno shapefile, o anche altri formati, in un
> db è generalmente un'operazione a rischio, perché i caratteri accentati
> possono non essere interpretati correttamente. Talvolta ci si accorge
> della cosa solo molto tempo dopo, quando magari si sono creati dati
> derivati ecc.
> La domanda: sapete che si sia una query già pronta, o un altro sistema,
> per accorgersi se in una tabella c'è un qualsiasi carattere "strano",
> convertito non correttamente?
> Saluti, e grazie.
> --
> Paolo Cavallini - www.faunalia.eu
> QGIS & PostGIS courses: http://www.faunalia.eu/training.html
>
>
> ------------------------------
>
> _______________________________________________
> Gfoss mailing list
> [hidden email]
> http://lists.gfoss.it/cgi-bin/mailman/listinfo/gfoss
> Questa e' una lista di discussione pubblica aperta a tutti.
> I messaggi di questa lista non rispecchiano necessariamente
> le posizioni dell'Associazione GFOSS.it.
> 802 iscritti al 30.11.2015
>
> Fine di Digest di Gfoss, Volume 130, Numero 20
> **********************************************
>


--
*Lorenzo Luisi* [Cartografia - Stereoscopia - Fotointerpretazione - SIT/GIS]
+39360405135 www.spaziocartograficopugliese.it
https://it.linkedin.com/in/lorenzolusispazcartpugliese

_______________________________________________
[hidden email]
http://lists.gfoss.it/cgi-bin/mailman/listinfo/gfoss
Questa e' una lista di discussione pubblica aperta a tutti.
I messaggi di questa lista non hanno relazione diretta con le posizioni dell'Associazione GFOSS.it.
807 iscritti al 31/03/2016
Reply | Threaded
Open this post in threaded view
|

Re: Digest di Gfoss, Volume 130, Numero 20

pcav
Il 18/04/2016 18:28, Lorenzo Luisi ha scritto:

> Buonasera, sono Lorenzo Luisi e rispondo a questa richiesta:
> "Trovare errori encoding" proposta da Paolo.
> Ebbene non ho una procedura pronta, ma con degli shapefile della Regione
> Puglia ho sempre a che fare con questi caratteri strani che inserisco
> fra apicetti:
>
> “'” (apostrofo)
>
> “,” (virgola)
>
> “¨”
>
> “ù”
>
> “pi¨”
>
> Li elimino con OpenOfficeCalc uno per volta.
>
> Spero sia di utilità,

Grazie. Il problema che mi ponevo e': come accorgersente il prima
possibile, in fase di importazione su DB, in modo da evitare di
propagare gli errori?
In questo scenario, purtroppo Calc non è di aiuto.
Salluti, e grazie di nuovo.
--
Paolo Cavallini - www.faunalia.eu
QGIS & PostGIS courses: http://www.faunalia.eu/training.html
_______________________________________________
[hidden email]
http://lists.gfoss.it/cgi-bin/mailman/listinfo/gfoss
Questa e' una lista di discussione pubblica aperta a tutti.
I messaggi di questa lista non hanno relazione diretta con le posizioni dell'Associazione GFOSS.it.
807 iscritti al 31/03/2016
Reply | Threaded
Open this post in threaded view
|

Re: Trovare errori encoding

pigreco
In reply to this post by pcav
Salve,
In occasione del referendum ho voluto fare delle prove tecniche con R e lo
scraping table da web dei dati sull'affluenza di tutti i comuni italiani,
ottenendo una tabella con due campi: comune e affluenza, questa tabella poi
l'ho messa in join con lo shapefile comuni scaricato dal sito istat:
problema: l'istat scrive i nomi dei comuni con caratteri speciali (à, è,
ecc..), il Ministero dell'Interno con caratteri tutti maiuscole; quindi una
query sarebbe l'ideale!!!

saluti

Il giorno 16 aprile 2016 07:17, Paolo Cavallini <[hidden email]> ha
scritto:

> Salve,
> come noto, l'importazione di uno shapefile, o anche altri formati, in un
> db è generalmente un'operazione a rischio, perché i caratteri accentati
> possono non essere interpretati correttamente. Talvolta ci si accorge
> della cosa solo molto tempo dopo, quando magari si sono creati dati
> derivati ecc.
> La domanda: sapete che si sia una query già pronta, o un altro sistema,
> per accorgersi se in una tabella c'è un qualsiasi carattere "strano",
> convertito non correttamente?
> Saluti, e grazie.
> --
> Paolo Cavallini - www.faunalia.eu
> QGIS & PostGIS courses: http://www.faunalia.eu/training.html
> _______________________________________________
> [hidden email]
> http://lists.gfoss.it/cgi-bin/mailman/listinfo/gfoss
> Questa e' una lista di discussione pubblica aperta a tutti.
> I messaggi di questa lista non hanno relazione diretta con le posizioni
> dell'Associazione GFOSS.it.
> 807 iscritti al 31/03/2016



--
*Salvatore Fiandaca*
*mobile*.:+39 327.493.8955
*m*: *[hidden email] <[hidden email]>*
*blog:** https://pigrecoinfinito.wordpress.com/
<https://pigrecoinfinito.wordpress.com/>*

43°51'0.54"N  10°34'27.62"E - EPSG:4326

“Se la conoscenza deve essere aperta a tutti,
perchè mai limitarne l’accesso?”
R. Stallman

_______________________________________________
[hidden email]
http://lists.gfoss.it/cgi-bin/mailman/listinfo/gfoss
Questa e' una lista di discussione pubblica aperta a tutti.
I messaggi di questa lista non hanno relazione diretta con le posizioni dell'Associazione GFOSS.it.
807 iscritti al 31/03/2016
Reply | Threaded
Open this post in threaded view
|

Re: Trovare errori encoding

Sandro Santilli
In reply to this post by pcav
On Sat, Apr 16, 2016 at 07:17:42AM +0200, Paolo Cavallini wrote:

> La domanda: sapete che si sia una query già pronta, o un altro sistema,
> per accorgersi se in una tabella c'è un qualsiasi carattere "strano",
> convertito non correttamente?

Non e' facile definire "strano".
Forse potresti fare una lista di caratteri "non strani"
e controllare che tutti i caratteri nei valori di un campo
siano presenti in quel set.

--strk;
_______________________________________________
[hidden email]
http://lists.gfoss.it/cgi-bin/mailman/listinfo/gfoss
Questa e' una lista di discussione pubblica aperta a tutti.
I messaggi di questa lista non hanno relazione diretta con le posizioni dell'Associazione GFOSS.it.
807 iscritti al 31/03/2016
Reply | Threaded
Open this post in threaded view
|

Re: Trovare errori encoding

Marco Guiducci-3
On Tue, 19 Apr 2016 16:42:54 +0200
Sandro Santilli <[hidden email]> wrote:

> On Sat, Apr 16, 2016 at 07:17:42AM +0200, Paolo Cavallini wrote:
>
> > La domanda: sapete che si sia una query già pronta, o un altro sistema,
> > per accorgersi se in una tabella c'è un qualsiasi carattere "strano",
> > convertito non correttamente?
>
> Non e' facile definire "strano".
> Forse potresti fare una lista di caratteri "non strani"
> e controllare che tutti i caratteri nei valori di un campo
> siano presenti in quel set.
>

di solito sono quelli oltre il 127 ascii.
fare una analisi preventiva dei dati comporta comunque sapere il set di caratteri usato.
ad esempio nelle specifiche tecniche di RT i dati devono essere consegnati in cp1252.
dopodiché attraverso una riga di python

return v.encode('cp1252')

non ho nessun problema ad infilare l'informazione in uno shapefile.

questo per dire che forse è meglio prevenire il fatto.
ciao


--
Marco Guiducci <[hidden email]>
Firenze, via di Novoli 26
055 4383194
_______________________________________________
[hidden email]
http://lists.gfoss.it/cgi-bin/mailman/listinfo/gfoss
Questa e' una lista di discussione pubblica aperta a tutti.
I messaggi di questa lista non hanno relazione diretta con le posizioni dell'Associazione GFOSS.it.
807 iscritti al 31/03/2016
Reply | Threaded
Open this post in threaded view
|

Re: Trovare errori encoding

Sandro Santilli
On Wed, Apr 20, 2016 at 09:45:19AM +0200, Marco Guiducci wrote:

> On Tue, 19 Apr 2016 16:42:54 +0200
> Sandro Santilli <[hidden email]> wrote:
>
> > On Sat, Apr 16, 2016 at 07:17:42AM +0200, Paolo Cavallini wrote:
> >
> > > La domanda: sapete che si sia una query già pronta, o un altro sistema,
> > > per accorgersi se in una tabella c'è un qualsiasi carattere "strano",
> > > convertito non correttamente?
> >
> > Non e' facile definire "strano".
> > Forse potresti fare una lista di caratteri "non strani"
> > e controllare che tutti i caratteri nei valori di un campo
> > siano presenti in quel set.
>
> di solito sono quelli oltre il 127 ascii.

Beh, le lettere accentate italiane non sono in quella fascia
(per esempio).

> fare una analisi preventiva dei dati comporta comunque sapere il set di caratteri usato.

Infatti la stessa definizione di carattere non puo' prescindere
dall'encoding. Per determinare se un carattere e' strano devi prima
determinare cosa sia un carattere, potrebbe essere definito come un
solo byte oppure come multibyte...

> ad esempio nelle specifiche tecniche di RT i dati devono essere consegnati in cp1252.

Perche' non UTF8 ?

--strk;

  ()   Free GIS & Flash consultant/developer
  /\   http://strk.keybit.net/services.html
_______________________________________________
[hidden email]
http://lists.gfoss.it/cgi-bin/mailman/listinfo/gfoss
Questa e' una lista di discussione pubblica aperta a tutti.
I messaggi di questa lista non hanno relazione diretta con le posizioni dell'Associazione GFOSS.it.
807 iscritti al 31/03/2016
Reply | Threaded
Open this post in threaded view
|

Re: Trovare errori encoding

Luigi Pirelli-2
>> ad esempio nelle specifiche tecniche di RT i dati devono essere consegnati in cp1252.
>
> Perche' non UTF8 ?

perche' la C toscana non e' codificabile ;)
_______________________________________________
[hidden email]
http://lists.gfoss.it/cgi-bin/mailman/listinfo/gfoss
Questa e' una lista di discussione pubblica aperta a tutti.
I messaggi di questa lista non hanno relazione diretta con le posizioni dell'Associazione GFOSS.it.
807 iscritti al 31/03/2016
Reply | Threaded
Open this post in threaded view
|

Re: Trovare errori encoding

Andrea Peri
In reply to this post by Sandro Santilli
Il 20 aprile 2016 14:00, Sandro Santilli <[hidden email]> ha scritto:

> On Wed, Apr 20, 2016 at 09:45:19AM +0200, Marco Guiducci wrote:
>> On Tue, 19 Apr 2016 16:42:54 +0200
>> Sandro Santilli <[hidden email]> wrote:
>>
>> > On Sat, Apr 16, 2016 at 07:17:42AM +0200, Paolo Cavallini wrote:
>> >
>> > > La domanda: sapete che si sia una query già pronta, o un altro sistema,
>> > > per accorgersi se in una tabella c'è un qualsiasi carattere "strano",
>> > > convertito non correttamente?
>> >
>> > Non e' facile definire "strano".
>> > Forse potresti fare una lista di caratteri "non strani"
>> > e controllare che tutti i caratteri nei valori di un campo
>> > siano presenti in quel set.
>>
>> di solito sono quelli oltre il 127 ascii.
>
> Beh, le lettere accentate italiane non sono in quella fascia
> (per esempio).
>


Infatti.
Quindi nei files RT non ci vanno le lettere accentate.
Le accentate si fanno con l'apostrofo.

A.
_______________________________________________
[hidden email]
http://lists.gfoss.it/cgi-bin/mailman/listinfo/gfoss
Questa e' una lista di discussione pubblica aperta a tutti.
I messaggi di questa lista non hanno relazione diretta con le posizioni dell'Associazione GFOSS.it.
807 iscritti al 31/03/2016