文字エンコードとは

コンピュータプログラミングでの文字エンコーディングは、通常、文字、グリフ、または記号の数値表現を見つけるために使用される方法またはアルゴリズムです。コンピューターのメモリ内およびコンピューターが読み取り可能なメディア上の情報は、ビットまたは数字のシーケンスとして保存されるため、コンピューターでの文字エンコードの使用が必要です。これには、表示に使用される非数値文字または人間が読み取れる出力をコンピューターが操作できる形式に変換するためにエンコードを使用する必要があります。より具体的なアプリケーションでは、Webブラウザーで読み取られるHTML（HyperText Markup Language）文書は、使用する文字エンコードの種類を定義して、文書内の情報を表示するときに使用する特定の文字セットをブラウザーに知らせることができます。いくつかのエンコーディングスキームが使用されていますが、これらの独自仕様およびレガシーセットの多くは徐々にUnicode®エンコーディング標準に置き換えられています。

初期のコンピューターでは、メモリスペースが限られていたため、英語のアルファベットの基本文字（句読点や数字を含む）は7ビットシーケンスで格納され、128種類の文字を使用できました。この元のスキームでは、7ビットの各バイトは英語のアルファベットの1文字を表し、順番に番号が付けられていました。この文字エンコードは効率的であり、最終的には標準化され、生産されたほとんどのコンピューターで使用されました。エンコーディングシステムはUnicode®エンコーディング標準に進化しましたが、概念は変わりませんでした。つまり、言語内の各単一文字は、大きな標準文字セット内の単一の数字に直接関連付けられており、その数字は、コンピューターが文字の保存、処理、およびインデックス付けに使用するものです。

他のタイプの文字エンコードは、さまざまな理由で開発されました。特に英語のアルファベットを対象としており、テキストに使用することを目的とした一部の文字は、文字を7ビットシーケンスにマップし、8ビットバイトまたはオクテットに分散します。これには、圧縮の一種として文字エンコードを効果的に使用して、オクテットあたり1ビットを節約する効果がありました。他のエンコーディングスキームは、文字に関する基本情報を提供し、別の言語で記述するときに使用できる特別なアクセントを表す追加の文字を提供しようとしましたが、これらはより単純な1対1のエンコーディング方法のためにほとんど放棄されました。

HTMLドキュメントでは、定義されているエンコーディングが文字のセット全体を含むことを除いて、文字エンコーディングは大まかな概念とほぼ同じです。これは、外国語だけでなく、すべての文字セットに存在しない科学や数学に特定の記号を使用するドキュメントにとっても重要です。また、存在しないか、エンコードスキーム間で異なる方法でマッピングされる句読点やその他のグリフを使用する場合にも役立ちます。非標準の文字エンコーディングを適切に定義していないドキュメントは、誤って表示されたり、読み取り可能な情報ではなく無意味な文字やプレースホルダーで埋められたりする可能性があります。

文字エンコードとは

この記事は参考になりましたか？