Gibts hier #Java Devs?
Ich hab ein Problem.
Ich krieg über http-Header "X-blafoo" einen CN (also einen ausgeschriebenen Benutzernamen) rein, der leider aufgrund des verwendeten Protokolls kein bestimmtes Encoding haben muss.
Es kann also UTF8 oder ISO-8859-1 oder irgendwas anderes sein. Die Header werden von einem Portal gesetzt das nicht in meinem Einflussbereich liegen muss.
Ich muss also schlucken, was daherkommt. Kein Spielraum.
Jetzt habe ich mehrere Encodingdetektoren getestet. #Icu4j, apache #tika, #juniversalchardet
Aber keiner arbeitet zuverlässig.
So wird z.B. der Name Schürz, Lösch, Löwz korrekt als UTF-8 oder auch ISO-8859-1 erkannt, wenn es entsprechend daherkommt...
Aber der Name "Löw" wird als BIG5 (chinesisch) oder TIS-620 (Thai) encodiert erkannt. Häng ich ein Zeichen an... passts wieder.
Da es ausschließlich Namen sind, hab ich nicht mehr Text zur Verfügung...
Zu Testzwecken kann ich mir die Header selbst setzen... die sind damit immer utf8... und trotzdem werden sie gelegentlich falsch erkannt...
Was kann ich da tun?