Co to jest kodowanie znaków?

Kodowanie znaków w programowaniu komputerowym jest metodą lub algorytmem służącym do znalezienia zwykle numerycznej reprezentacji znaku, glifu lub symbolu. Zastosowanie kodowania znaków w komputerach jest konieczne, ponieważ informacje w pamięci komputera i na nośnikach odczytywalnych przez komputer są przechowywane jako sekwencje bitów lub liczb. Wymaga to użycia kodowania do przetłumaczenia znaków nienumerycznych używanych do wyświetlania lub do odczytu przez człowieka na formę, którą może manipulować komputer. W bardziej szczegółowej aplikacji dokumenty HyperText Markup Language (HTML) odczytywane przez przeglądarki internetowe mogą określać, jakiego rodzaju kodowania znaków używają, aby poinformować przeglądarkę, którego określonego zestawu znaków użyć podczas wyświetlania informacji w dokumencie. W użyciu jest kilka schematów kodowania, choć wiele z tych zastrzeżonych i starszych zestawów jest powoli zastępowanych standardem kodowania Unicode®.

We wczesnych czasach komputerów, gdy brakowało miejsca w pamięci, podstawowe znaki alfabetu angielskiego - w tym znaki interpunkcyjne i cyfry - były przechowywane w 7-bitowych sekwencjach, pozwalających na 128 różnych znaków. W tym oryginalnym schemacie każdy 7-bitowy bajt reprezentował jeden znak alfabetu angielskiego, ponumerowany kolejno. To kodowanie znaków było wydajne i ostatecznie zostało ustandaryzowane i stosowane na większości wyprodukowanych komputerów. Chociaż system kodowania przekształcił się w standard kodowania Unicode®, koncepcja pozostała taka sama. Mianowicie, każdy pojedynczy znak w języku jest bezpośrednio powiązany z pojedynczą liczbą w dużym standardowym zestawie znaków, a liczba ta jest używana przez komputer do przechowywania, przetwarzania i indeksowania znaku.

Inne typy kodowania znaków zostały opracowane z różnych powodów. Niektóre z nich były specjalnie dostosowane do alfabetu angielskiego i przeznaczone do użycia w tekście tylko zamapowały swoje znaki na sekwencje 7-bitowe, a następnie rozłożyły je na 8-bitowe bajty lub oktety. Spowodowało to oszczędność 1 bitu na oktet, skutecznie wykorzystując kodowanie znaków jako rodzaj kompresji. Inne schematy kodowania próbowały dostarczyć podstawowych informacji o znaku, a następnie dodatkowych znaków reprezentujących specjalne akcenty, których można użyć podczas pisania w innym języku, chociaż zostały one w dużej mierze porzucone dla prostszych metod kodowania jeden na jeden.

W dokumentach HTML kodowanie znaków jest mniej więcej takie samo jak szersza koncepcja, z wyjątkiem tego, że definiowane kodowanie obejmuje cały zestaw znaków. Może to być ważne nie tylko w przypadku języków obcych, ale także w przypadku dokumentów, które używają określonych symboli nauki lub matematyki, które nie występują we wszystkich zestawach znaków. Może być również przydatny do używania interpunkcji i innych glifów, które mogą nie być obecne lub są inaczej odwzorowane w różnych schematach kodowania. Dokumenty, które nie definiują poprawnie niestandardowego kodowania znaków, mogą wyświetlać się niepoprawnie lub być wypełnione nonsensownymi znakami i symbolami zastępczymi zamiast czytelnych informacji.

Co to jest kodowanie znaków?

Czy ten artykuł był pomocny?