Интернет магазин китайских планшетных компьютеров



Компьютеры - UTF-16 - История появления

02 июля 2011


Оглавление:
1. UTF-16
2. История появления
3. UTF-16 в ОС Windows



Первая версия Юникода представляла собой 16-битную кодировку с фиксированной шириной символа; общее число разных символов было 2. Во второй версии Юникода было решено значительно расширить кодовую область; для сохранения совместимости с теми системами, где уже был реализован 16-битный Юникод, и была создана UTF-16. Область 0xD800—0xDFFF, отведённая для суррогатных пар, ранее принадлежала к области «символов для частного использования».

Поскольку в UTF-16 можно отобразить 2+2 - 2048 символов, то это число и было выбрано в качестве новой величины кодового пространства Юникода.

Порядок байт

Один символ кодировки UTF-16 представлен последовательностью двух байтов. Который из двух идёт впереди, старший или младший, зависит от порядка байтов. Систему, совместимую с процессорами x86, называют little endian, а с процессорами m68k и SPARC — big endian.

Для определения порядка байтов используется метка порядка байтов. В начале текста записывается код U+FEFF. При считывании, если вместо U+FEFF считалось U+FFFE, значит порядок байтов обратный, поскольку символа с кодом и U+FFFE в Юникоде нет. Так как в кодировке UTF-8 не используются значения 0xFE и 0xFF, можно использовать метку порядка байтов как признак, позволяющий различать UTF-16 и UTF-8.

UTF-16LE и UTF-16ВE

Предусмотрена также возможность внешнего указания порядка байтов — для этого кодировка должна быть описана как UTF-16LE или UTF-16ВE, а не просто UTF-16. В этом случае метка порядка байтов не нужна.



Просмотров: 2608


<<< Windows Glyph List 4