Ankündigung

**mike** · 05.10.2013, 06:46

Hallo Robert,

eine Lösung habe ich hier nicht. Ich kann leider nur etwas klugscheißen.

Das eigentliche Problem ist doch: Es gibt einen Informationskanal in dem unterschiedliche Kodierungen benutzt werden. Z.Z. hast du anscheinend zwei. Einmal ASCII (ohne Umlaute?) und einmal utf-8. Hier könnte man natürlich utf-8 einmal dekodieren und dann wieder enkodieren, da ASCII eine Teilmenge von utf-8 ist.
Eventuell klappt das auch noch bei iso-8859 enkodierten Daten. Aber irgendwann hört es dann mal auf.

Das Problem an dieser Stelle lässt sich daher nicht am Empfänger der Nachricht lösen, sondern muss an der Quelle gelöst werden.

Wenn du das Problem im Empfänger lösen willst, dann müsstest du Charset detection betreiben: Charset detection - Wikipedia, the free encyclopedia.

Das Problem der Quelle rührt wahrscheinlich daher, dass die Strings dort schon UTF-8 enkodiert angeliefert werden und der Client die Bytes einfach so weitergibt, da er selbst nicht weiß wie es enkodiert ist.

Grüße
Mike

**callidomus** · 09.10.2013, 19:48

Hi Robert,

Zitat von Robert Beitrag anzeigen

Gibts noch andere Möglichkeiten?

hast Du schon mal mit decode('unicode-escape') probiert? Was kommt da raus?

Bis bald

Marcus

Ankündigung

Sammelbestellung ETS6 Vollversionen aktiv!

Python3: Allgemeines Problem mit doppelten Encodings

Python3: Allgemeines Problem mit doppelten Encodings

Kommentar

Kommentar