Интернет магазин китайских планшетных компьютеров



Компьютеры - UTF-8 - Неиспользуемые значения байтов

06 июля 2011


Оглавление:
1. UTF-8
2. Неиспользуемые значения байтов



В тексте UTF-8 принципиально не может быть байтов со значениями 254 и 255. Поскольку в Юникоде не определены символы с кодами выше 2, то в UTF-8 оказываются неиспользуемыми также значения байтов от 248 до 253. Если запрещены искусственно удлинённые последовательности UTF-8, то не используются также байтовые значения 192 и 193.

Порядок байтов

Многие программы Windows добавляют байты 0xEF, 0xBB, 0xBF в начале любого документа, сохраняемого как UTF-8. Это метка порядка байтов Юникода, также её часто называют сигнатурой. По наличию сигнатуры программы могут автоматически определить, является ли файл закодированным в UTF-8, однако файлы с такой сигнатурой могут некорректно обрабатываться старыми программами, в частности xml-анализаторами. Такие редакторы, как Notepad++, Notepad2 и Kate позволяют явно указывать, следует ли добавлять сигнатуру при сохранении UTF-файлов.



Просмотров: 2215


<<< Shift JIS
Wchar t >>>