Byte thứ tự mã hóa đề án [sửa]UTF-16 và UCS-2 tạo ra một chuỗi các 16-bit mã đơn vị. Kể từ khi hầu hết các thông tin liên lạc và lí giao thức được xác định cho byte, và mỗi đơn vị như vậy có hai 8-bit byte, và thứ tự của byte đầu có thể phụ thuộc vào endianness (byte thứ tự) của kiến trúc máy tính.Để hỗ trợ trong công nhận thứ tự byte đơn vị mã, UTF-16 cho phép một Byte đơn đặt hàng Mark (BOM), một mã số điểm với giá trị U + FEFF, để ưu tiên đầu tiên giá trị mã thực tế. [7] (U + FEFF là vô hình 0-chiều rộng-breaking không gian/ZWNBSP nhân.) [8] Nếu kiến trúc về cuối của các bộ giải mã phù hợp của các bộ mã hóa, các bộ giải mã phát hiện giá trị 0xFEFF, nhưng một bộ giải mã về cuối đối diện dịch HĐQT như là giá trị không phải là ký tự U + FFFE dành riêng cho mục đích này. Kết quả không chính xác này cung cấp một gợi ý để thực hiện trao đổi byte cho các giá trị còn lại. Nếu Hội đồng quản trị là mất tích, RFC 2781 nói rằng lớn về cuối mã hóa cần được giả định. (Trong thực tế, do Windows bằng cách sử dụng đơn đặt hàng về cuối nhỏ theo mặc định, nhiều ứng dụng tương tự như vậy giả định về cuối nhỏ mã hoá theo mặc định.) Nếu không có không có hội đồng quản trị, một phương pháp công nhận một mã hóa UTF-16 tìm kiếm không gian ký tự (U + 0020) mà là rất phổ biến trong các văn bản trong hầu hết các ngôn ngữ.Tiêu chuẩn cũng cho phép lệnh byte được nêu rõ ràng bằng cách xác định UTF-16BE hoặc UTF-16LE như kiểu mã hóa. Khi thứ tự byte được chỉ định một cách rõ ràng bằng cách này, một hội đồng quản trị cụ thể không phải là nghĩa vụ phải được prepended để các văn bản, và U + FEFF lúc đầu nên được xử lý như một nhân vật ZWNBSP. Nhiều ứng dụng bỏ qua mã BOM lúc bắt đầu của bất kỳ mã hóa Unicode. Trình duyệt web thường sử dụng một hội đồng quản trị như là một gợi ý trong việc xác định các bảng mã ký tự. [9]Cho giao thức Internet, IANA đã chấp thuận "UTF-16", "UTF-16BE", và "UTF-16LE" là tên của các mã hóa. (Tên là trường hợp insensitive.) Bí danh UTF_16 hay UTF16 có thể có ý nghĩa trong một số ngôn ngữ lập trình hoặc ứng dụng phần mềm, nhưng họ không phải tên tiêu chuẩn trong giao thức Internet.Tương tự như tên gọi, UCS-2, UCS-2BE và UCS-2LE, được sử dụng để bắt chước các nhãn UTF-16 và hành vi. Tuy nhiên, "UCS-2 nên bây giờ được coi là đã lỗi thời. Nó không còn đề cập đến một hình thức mã hóa trong chế độ 10646 hoặc tiêu chuẩn Unicode.
đang được dịch, vui lòng đợi..
