UTF-8 là các chỉ mã hóa cho XML thực thể mà không cần một hội đồng quản trị hoặc một dấu hiệu của các mã hóa. [33]UTF-8 và UTF-16 là mã hóa tiêu chuẩn cho Unicode văn bản trong các tài liệu HTML, với UTF-8 là các ưa thích và sử dụng nhiều nhất mã hóa.UTF-8 chuỗi có thể được khá đáng tin cậy được công nhận như vậy bằng một thuật toán heuristic đơn giản. [34] hợp lệ UTF-8 không thể chứa một byte duy nhất với các thiết lập cao bit, và có thể có bất kỳ cặp byte cả hai với các thiết lập cao chút là hợp lệ UTF-8 là 11,7% [35] và các tỷ lệ cược thậm chí thấp hơn cho chuỗi dài hơn. Điều này làm cho nó cực kỳ không chắc rằng văn bản trong bất kỳ khác mã hóa (chẳng hạn như tiêu chuẩn ISO/IEC 8859 - 1) Là hợp lệ UTF-8. Đây là một lợi thế mà hầu hết các mã hóa khác không có, và cho phép UTF-8 được trộn lẫn với một mã hóa di sản mà không cần phải thêm dữ liệu để xác định mã hóa nào đang sử dụng, tránh lỗi (mojibake) thường gặp phải khi cố gắng để thay đổi một hệ thống để một mã hóa mặc định mới.Phân loại một tập hợp các UTF-8 mã hóa chuỗi như dây dấu byte sản lượng theo thứ tự như phân loại dây Unicode tương ứng lexicographically bởi codepoint.
đang được dịch, vui lòng đợi..
