Перекодировка текста UTF-8 и WINDOWS-1251

12.01.2017

74677

Проблема кодировок часто возникает при написании парсеров, чтении данных из xml и CSV файлов. Ниже представлены способы эту проблему решить.

windows-1251 в UTF-8

$text = iconv('windows-1251//IGNORE', 'UTF-8//IGNORE', $text);
echo $text;

PHP

$text = mb_convert_encoding($text, 'UTF-8', 'windows-1251');
echo $text;

PHP

UTF-8 в windows-1251

$text = iconv('utf-8//IGNORE', 'windows-1251//IGNORE', $text);
echo $text;

PHP

$text = mb_convert_encoding($text, 'windows-1251', 'utf-8');
echo $text;

PHP

Когда ни что не помогает

$text = iconv('utf-8//IGNORE', 'cp1252//IGNORE', $text);
$text = iconv('cp1251//IGNORE', 'utf-8//IGNORE', $text);
echo $text;

PHP

Иногда доходит до бреда, но работает:

$text = iconv('utf-8//IGNORE', 'windows-1251//IGNORE', $text);
$text = iconv('windows-1251//IGNORE', 'utf-8//IGNORE', $text);
echo $text;

PHP

File_get_contents / CURL

Бывают случаи когда file_get_contents() или CURL возвращают иероглифы (ÐÐ»Ð¼Ð°Ð·Ð½ÑÐµ Ð±Ð¾ÑÑ) – причина тут не в кодировке, а в отсутствии BOM-метки.

$text = file_get_contents('https://example.com');
$text = "\xEF\xBB\xBF" .  $text;
echo $text;

PHP

Ещё бывают случаи, когда file_get_contents() возвращает текст в виде:

�mw�Ƒ0��&IkAI��f��j4/{�</�&�h�� ({�񌝷o��:/��<g��g��(�=�9�Paɭ

Это сжатый текст в GZIP, т.к. функция не отправляет правильные заголовки. Решение проблемы через CURL:

function getcontents($url){
	$ch = curl_init();
	curl_setopt($ch, CURLOPT_URL, $url);
	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
	curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
	curl_setopt($ch, CURLOPT_ENCODING, 'gzip');
	curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);
	curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);
	$output = curl_exec($ch);
	curl_close($ch);
	return $output;
}

echo getcontents('https://example.com');

PHP

12.01.2017, обновлено 02.11.2021

74677

#PHP #Кодировка #Тексты и символы

39 52

Предыдущая запись PHP функция serialize, возможные проблемы

Следующая запись Дополнительные функции mb_string

Комментарии 3

Bahtiyar Abdukarimov

3 апреля 2021 в 01:19

Просто нет слов, сложно выразить эмоции без мата, ибо я уже почти 6 часов над этой проблемой сидел, столько ссылок по кодировкам перекопал, а тут вот оно что, нет BOM-метки. Просто огромное человеческое спасибо за этот пост.

Ответить

bolod

6 ноября 2022 в 16:59

Привет, 3-е суток ломал голову, разрабам сервера писал почему json c выше 200 символов меняет отдачу типа:(�mw�Ƒ0��&IkAI��f��j4/{�</�&�h�� ({�񌝷o��:/��<g��g��(�=�9�Paɭ). Отвечали всякую фигню.
Все перелопатил, а тут !!!!!!!!!!!!!!
ГОЛОВА.
Автор публикуй больше подобных тонкостей в PHP, для нас любителей это как глоток воды в пустыне!!!

Ответить

bolod

7 ноября 2022 в 15:11

Добрый день, можете помочь: как динамическое int число 1648249640 показать как время ( оно же отображается ка 05 час :25 мин: 37 сек), у меня не выходит добиться результата, получается совершенно другое время с данного числа.
Спасибо!

Ответить

Авторизуйтесь, чтобы добавить комментарий.