Skip to main content

Mã hóa ký tự là gì?

Mã hóa ký tự, trong lập trình máy tính, là một phương thức hoặc thuật toán được sử dụng để tìm biểu diễn số thường của ký tự, glyph hoặc ký hiệu.Việc sử dụng mã hóa ký tự trong máy tính là cần thiết vì thông tin trong bộ nhớ máy tính và trên phương tiện có thể đọc được máy tính được lưu trữ dưới dạng chuỗi bit hoặc số.Điều này đòi hỏi phải sử dụng mã hóa để dịch các ký tự không phải là số lượng được sử dụng để hiển thị hoặc đầu ra có thể đọc được thành một dạng mà máy tính có thể thao tác.Trong một ứng dụng cụ thể hơn, các tài liệu của Ngôn ngữ đánh dấu siêu văn bản (HTML) được đọc bởi các trình duyệt web có thể xác định loại mã hóa ký tự mà họ đang sử dụng để cho trình duyệt biết ký tự cụ thể nào được thiết lập khi hiển thị thông tin trong tài liệu.Có một số sơ đồ mã hóa được sử dụng, mặc dù nhiều bộ phận độc quyền và di sản này đang dần được thay thế bằng Unicode Tiêu chuẩn mã hóa.

Trong những ngày đầu của máy tính, khi có không gian bộ nhớ hạn chế, các ký tự cơ bản của bảng chữ cái tiếng Anh mdash;bao gồm dấu câu và số mdash;được lưu trữ theo trình tự 7 bit cho phép 128 ký tự khác nhau.Trong sơ đồ ban đầu này, mỗi byte 7 bit đại diện cho một ký tự của bảng chữ cái tiếng Anh, được đánh số theo trình tự.Mã hóa ký tự này có hiệu quả và cuối cùng được chuẩn hóa và sử dụng trong hầu hết các máy tính được sản xuất.Mặc dù hệ thống mã hóa phát triển thành Unicode Tiêu chuẩn mã hóa, khái niệm vẫn giữ nguyên.Cụ thể, mỗi ký tự trong một ngôn ngữ có liên quan trực tiếp đến một số duy nhất trong một bộ ký tự tiêu chuẩn lớn và số đó là thứ mà máy tính sử dụng để lưu trữ, xử lý và lập chỉ mục ký tự.lý do.Một số được hướng đến bảng chữ cái tiếng Anh và dự định sẽ được sử dụng cho văn bản chỉ ánh xạ các ký tự của họ lên các chuỗi 7 bit và sau đó trải chúng trên các byte 8 bit hoặc octet.Điều này có tác dụng lưu 1 bit mỗi octet, sử dụng hiệu quả mã hóa ký tự như một loại nén.Các sơ đồ mã hóa khác đã cố gắng cung cấp thông tin cơ bản về một ký tự, và sau đó các ký tự bổ sung để thể hiện các điểm nhấn đặc biệt có thể được sử dụng khi viết bằng một ngôn ngữ khác, mặc dù chúng bị bỏ rơi phần lớn cho các phương thức mã hóa một-một đơn giản hơn.Các tài liệu HTML, mã hóa ký tự gần giống với khái niệm rộng hơn, ngoại trừ mã hóa được xác định bao gồm toàn bộ bộ ký tự.Điều này có thể quan trọng không chỉ đối với ngoại ngữ, mà đối với các tài liệu sử dụng các biểu tượng cụ thể cho khoa học hoặc toán học không có trong tất cả các bộ ký tự.Nó cũng có thể hữu ích cho việc sử dụng dấu câu và các glyph khác có thể không có mặt hoặc được ánh xạ khác nhau trên các sơ đồ mã hóa.Các tài liệu không xác định đúng một mã hóa ký tự không chuẩn có thể hiển thị không chính xác hoặc chứa đầy các ký tự và người giữ chỗ vô nghĩa thay vì thông tin có thể đọc được.