У чому різниця між UCS-2 і UCS 4?

2024 admin 0 Comments

UCS-2 визначає простір кодування 64K, або BMP, для представлення кодів символів у двооктетному форматі рядка та клітинки. Октети рядків і клітинок позначають розташування комірки певного коду символу в площині 256 на 256 (00-FF). UCS-4 визначає чотириоктетний простір кодування, розділений на чотири одиниці: група, площина, рядок і комірка.

The 4-байтова форма Unicode називається UCS-4 або UTF-32 і здатний визначати повні розширення Юнікоду з максимальною кількістю визначених понад 1 000 000 унікальних символів.

Універсальний набір символів Формат універсального набору символів (UCS-2) — це рядок символів, де кожен символ представлений 2 байтами. Цей набір символів може кодувати символи багатьох письмових мов. Поля, визначені як дані UCS-2, не містять символів зсуву (SO) або зсуву (SI).');})();(function(){window.jsl.dh('9H-4ZonED-KiptQPi). -Dr2AY__22','

UCS-2 (Universal Character Set v2) — це застаріле кодування, яке спочатку використовувалося в Windows і Java: воно кодує кожен символ 2-байтовим цілим числом і тому обмежено першими 65536 кодовими точками Unicode, ось чому він поступово був замінений простим UTF-16.

У UCS-2 кожен символ представлений 2-байтовим кодом Unicode із старшим байтом першим. Наприклад: ВЕЛИКА ЛАТИНСЬКА ЛІТЕРА A має код 0x0041 і зберігається у вигляді 2-байтової послідовності: 0x00 0x41 . КИРИЛИЧНА МАЛА ЛІТЕРА YERU (Unicode 0x044B ) зберігається як 2-байтова послідовність: 0x04 0x4B .