Основы японских многобайтовых кодировок

Японские символы представляются только в многобайтовых кодировках, и многие стандарты кодирования зависят от платформы и назначения текста. Осложняет ситуацию то, что эти стандарты содержат незначительные отличия. Чтобы создать веб-приложение, которое будет правильно работать в японском окружении, разработчику потребуется учитывать эти сложности, чтобы гарантировать отображение или передачу символов в правильных кодировках.

  • Один символ занимает в памяти до шести байтов.
  • Бо́льшая часть японских многобайтовых символов выглядит в 2 раза шире, чем однобайтовые символы. Такие символы по-японски называются zen-kaku что означает «полноширинный». Другие, более узкие символы называются han-kaku, что означает «полуширинные». Конкретные графические свойства символов зависят от шрифта, которым они отображаются.
  • В отдельных кодировках символов карту кодов конкретной области кодов — в диапазоне от 00 до 7f в шестнадцатеричной форме — изменяют последовательностями сдвига — escape-последовательностями, которые определяет стандарт ISO-2022.
  • При сетевом обмене по протоколам SMTP и NNTP японские символы передают в кодировке ISO-2022-JP; заголовки HTTP-сообщения, а также заголовки и тело полезной нагрузки HTTP-сообщения перекодируют по правилам RFC-стандартов. Даже если перекодировка не нужна, она всё же не помешает, поскольку отдельные популярные пользовательские агенты не умеют распознавать другие методы кодирования.
  • Веб-страницам для служб мобильной связи наподобие » i-mode и » EZweb требуется кодировка Shift_JIS.
  • Службы мобильной связи наподобие » i-mode и » EZweb поддерживают эмодзи.

add a note

User Contributed Notes 1 note

up
-15
gullevek at gullevek dot org
13 years ago
For ISO-2022-JP encoding. If you convert data into this encoding it is highly recommended you use ISO-2022-JP-MS for the extended character set, eg the 1 in a circle ①.

For the mail header on the other hand you have to use ISO-2022-JP *without* the -MS extension.
To Top