Интернет магазин китайских планшетных компьютеров |
|
Компьютеры - IRC - Специфика русскоязычного IRC30 мая 2011Оглавление: 1. IRC 2. Технические детали 3. Документы RFC 4. Специфика русскоязычного IRC Использование русского языка в IRC не опирается ни на какой стандарт. Однако, имеется ряд обычаев и соглашений, возникших в процессе эволюции различных русскоязычных IRC-сообществ. История вопросаПервые русскоговорящие каналы возникли ещё в 1990-х годах в международных сетях, таких как DALnet и IRCNet. Первоначально, под влиянием UNIX-культуры, было принято кодировать буквы русского алфавита в KOI-8. Примерно с 1995 года начался приток пользователей Windows, которые зачастую вообще не имели понятия, что такое кодовая страница и не делали различия между кириллицей и Windows-1251. Данное противоречие вызвало много конфликтов. Стихийно возникшее в те времена соглашение помещало вопрос о кодировках в ведение конкретных каналов. Это было очень неудобно для пользователей, однако на тот момент иного выхода не было. Отчасти именно эта проблема стимулировала примерно с 2000 года усиленное формирование отдельных русскоязычных сетей, где вопросы кодировки могли бы решаться централизованно. Обычаи современных русскоязычных сетейТрадиционно, в международных IRC-сетях клиенты посылают и принимают сообщения, состоящие из байтов; при этом вопрос об интерпретации не ASCII-байтов оставляется на усмотрение клиентов. Все сколь-нибудь развитые русскоязычные сети, при всех их различиях, придерживаются иного принципа: клиенты посылают и принимают сообщения, состоящие из символов. То есть, если правильно настроенный клиент отправляет на канал букву «Ы», то все подключенные к каналу правильно настроенные клиенты будут принимать тоже букву «Ы», независимо от того, как каждый из них предпочитает её кодировать. На практике это обычно реализуется наличием на сервере нескольких TCP-портов, на каждом из которых используется определённая кодировка. Список этих портов принято помещать в MOTD. Таким образом, вопрос о «правильной настройке» клиента сохраняется, однако для пользователя выбрать порт подключения несравненно проще, нежели заниматься установкой таблиц перекодировок символов, возможность чего, кстати, и не во всяком клиенте предусмотрена. Иногда, серверное ПО позволяет переключить кодировку без отсоединения от сервера хотя по ряду причин такое изменение кодировки работает неаккуратно. Как правило, каждая сеть использует свою внутреннюю кодировку, при этом данные, передаваемые или принимаемые клиентами, с кодировками отличными от внутренней, подвергаются перекодировке. НикиИсторически использование букв кириллицы в никах было невозможно. Однако некоторые современные серверы позволяют это делать. Считать ли буквы кириллицы, визуально похожие на буквы латиницы, той же самой буквой? Если считать, то какие именно и как именно? Разные сети имеют разную политику насчёт всего этого. UTF-8 за и противСторонники интернационализации обычно считают UTF-8 перспективной кодировкой для всех языков, включая русский. Следует однако отметить, что одна буква кириллицы в UTF-8 занимает два байта, что создаёт некоторую дополнительную нагрузку на сети и ограничивает максимальную длину одного сообщения. По стандарту, сообщение IRC не может иметь длину больше 510 байтов, из которых собственно на текст приходится никак не больше 499. Следовательно, отправить в одном сообщении больше 249 русских букв оказывается невозможно. Ограничение размера сообщений вызывает ещё одну неприятность: при попытке превысить установленный предел сервер обрезает сообщения. Если срез пройдёт посередине русской буквы, то получившаяся последовательность байтов перестанет, с точки зрения UTF-8, быть правильной строкой. Ряд клиентов отобразят такое сообщение как 8-битное, что сделает его полностью нечитаемым и занимающим к тому же много места на экране. Единственным несомненным преимуществом использования UTF-8 для кодировки русского языка является возможность свободно цитировать тексты на других языках, а также использовать экзотические символы наподобие «→» и «☺». К тому же, являясь клиентом IRC-сети, в которой UTF-8 принят повсеместно, можно будет общаться сразу на многих языках, не заботясь о техническом представлении букв. Пока, однако, неизвестны многоязычные сети, явно оговаривающие необходимость использования только UTF-8, использующие UTF-8 в качестве внутренней кодировки, или каким-либо иным образом упорядочивающие кодировку символов клиентами. Просмотров: 3794
|