понедельник, 29 декабря 2014 г.

Лечение Doubly encoded to UTF-8 from CP1251



Файлы с битой кодировкой, которые enca определяет как Doubly encoded to XXX from YYY
Отсюда (XXX - utf8, YYY - cp1251):
cat origin.file | iconv -f utf8 -c -t cp1251//TRANSLIT | iconv -f utf8 -c -t cp1251 | iconv -f cp1251 -c -t utf-8 | sed 's/?/И/g' > fixed.file

Комментариев нет: