Skip to main content

Qu'est-ce que le codage des personnages?

Le codage des caractères, en programmation informatique, est une méthode ou un algorithme utilisé pour trouver une représentation généralement numérique d'un caractère, d'un glyphe ou d'un symbole.L'utilisation du codage des caractères dans les ordinateurs est nécessaire car les informations dans la mémoire de l'ordinateur et sur les supports lisibles par ordinateur sont stockées sous forme de séquences de bits ou de nombres.Cela nécessite l'utilisation de l'encodage pour traduire des caractères non numériques qui sont utilisés pour l'affichage ou la sortie lisible par l'homme en une forme qu'un ordinateur peut manipuler.Dans une application plus spécifique, les documents de langage de balisage hypertexte (HTML) qui sont lus par les navigateurs Web peuvent définir quel type de codage de caractères ils utilisent pour permettre au navigateur de savoir quel jeu de caractères spécifique à utiliser lors de l'affichage des informations du document.Il existe plusieurs schémas de codage utilisés, bien que beaucoup de ces ensembles propriétaires et hérités soient lentement remplacés par l'Unicode Norme de codage.

Au début des ordinateurs, lorsqu'il y avait un espace mémoire limité, les caractères de base de l'alphabet anglais mdash;y compris la ponctuation et les chiffres mdash;ont été stockés dans des séquences 7 bits permettant 128 caractères différents.Dans ce schéma original, chaque octet 7 bits représentait un caractère de l'alphabet anglais, numéroté en séquence.Ce codage de personnage était efficace et a finalement été standardisé et utilisé dans la plupart des ordinateurs produits.Bien que le système d'encodage ait évolué en Unicode Norme d'encodage, le concept est resté le même.À savoir, chaque caractère unique d'une langue est directement lié à un seul numéro dans un grand jeu de caractères standard, et ce nombre est ce qu'un ordinateur utilise pour stocker, traiter et indexer le caractère.

D'autres types de codage de caractère ont été développés pour différentsles raisons.Certains qui étaient spécifiquement destinés à l'alphabet anglais et destinés à être utilisés pour le texte n'ont cartographié que leurs personnages sur des séquences 7 bits, puis les étalés sur des octets 8 bits ou des octets.Cela a eu pour effet d'économiser 1 bit par octet, en utilisant efficacement le codage des caractères comme type de compression.D'autres schémas d'encodage ont tenté de fournir des informations de base sur un personnage, puis des caractères supplémentaires pour représenter des accents spéciaux qui pourraient être utilisés lors de l'écriture dans une langue différente, bien que ceux-ci aient été largement abandonnés pour les méthodes de codage un à un plus simples.

enDocuments HTML, le codage des caractères est à peu près le même que le concept plus large, sauf que le codage défini comprend un ensemble entier de caractères.Cela peut être important non seulement pour les langues étrangères, mais pour les documents qui utilisent des symboles spécifiques pour la science ou les mathématiques qui ne sont pas présents dans tous les ensembles de caractères.Il peut également être utile pour utiliser la ponctuation et d'autres glyphes qui pourraient ne pas être présents ou qui sont cartographiés différemment d'un schéma de codage.Les documents qui ne définissent pas correctement un codage de caractères non standard peuvent afficher de manière incorrecte ou être rempli de caractères et d'espaces réservés au lieu d'informations lisibles.