Skip to main content

キャラクターエンコードとは何ですか?

computerコンピュータープログラミングでの文字エンコードは、文字、グリフ、またはシンボルの通常の数値表現を見つけるために使用される方法またはアルゴリズムです。コンピューターメモリ内およびコンピューター読み取り可能なメディア内の情報は、ビットまたは数値のシーケンスとして保存されるため、コンピューターでの文字エンコードの使用が必要です。これには、ディスプレイまたは人間の読み取り可能な出力に使用される非数値文字をコンピューターが操作できるフォームに変換するために、エンコードを使用する必要があります。より具体的なアプリケーションでは、Webブラウザで読み取られたHyperText Markup Language(HTML)ドキュメントで、ドキュメントに情報を表示するときに使用する特定の文字セットをブラウザに知らせるために使用している文字エンコードの種類を定義できます。いくつかのエンコーディングスキームが使用されていますが、これらの独自およびレガシーセットの多くは、Unicode&Reg;にゆっくりと置き換えられています。標準をエンコードします。句読点と数字を含む—7ビットシーケンスに保存され、128の異なる文字が可能になりました。このオリジナルスキームでは、各7ビットバイトが英語のアルファベットの1つの文字を表し、順番に番号が付けられています。このキャラクターエンコーディングは効率的であり、最終的に標準化され、生産されたほとんどのコンピューターで使用されました。エンコードシステムはUnicode&Reg;に進化しましたが標準をエンコードすると、概念は同じままでした。つまり、言語の各文字は、大規模な標準文字セット内の単一の数値に直接関連しており、その数はコンピューターが文字の保存、処理、インデックスに使用するものです。理由。特に英語のアルファベットに合わせて調整され、テキストに使用されることを意図したものは、キャラクターを7ビットシーケンスにマッピングし、8ビットバイトまたはオクテットに広げることを目的としています。これは、オクテットごとに1ビットを節約する効果があり、効果的にキャラクターエンコードを圧縮のタイプとして使用して使用しました。他のエンコーディングスキームは、キャラクターに関する基本情報を提供しようとしました。次に、別の言語で書くときに使用できる特別なアクセントを表す追加の文字を試みましたが、これらはより単純な1対1のエンコードメソッドのために大部分が放棄されました。HTMLドキュメント、文字エンコーディングは、エンコードが定義されていることを除いて、文字のセット全体を含むことを除いて、より広い概念とほぼ同じです。これは、外国語だけでなく、すべてのキャラクターセットに存在しない科学や数学に特定のシンボルを使用する文書にとって重要です。また、存在しない可能性のある句読点やその他のグリフを使用するのに役立ちます。標準以外の文字エンコードを適切に定義していないドキュメントは、読みやすい情報ではなく、誤って表示したり、無意味な文字とプレースホルダーで満たされたりする可能性があります。