Skip to main content

Cos'è la codifica dei personaggi?

La codifica dei caratteri, nella programmazione del computer, è un metodo o un algoritmo utilizzato per trovare una rappresentazione generalmente numerica di carattere, glifo o simbolo.L'uso della codifica dei caratteri nei computer è necessario perché le informazioni all'interno della memoria del computer e su supporti leggibili dal computer sono archiviati come sequenze di bit o numeri.Ciò richiede l'uso della codifica per tradurre caratteri non numerici utilizzati per la visualizzazione o l'output leggibile dall'uomo in una forma che un computer può manipolare.In un'applicazione più specifica, i documenti Hy Hypertext Markup Language (HTML) che vengono letti dai browser Web possono definire quale tipo di codifica dei caratteri che stanno utilizzando per far sapere al browser quale caratteri specifici utilizzati durante la visualizzazione delle informazioni nel documento.Esistono diversi schemi di codifica in uso, sebbene molti di questi set proprietari e legacy vengano lentamente sostituiti da Unicode codifica standard.

Nei primi giorni dei computer, quando c'era uno spazio di memoria limitato, i caratteri di base dell'alfabeto inglese mdash;tra cui punteggiatura e numeri mdash;sono stati memorizzati in sequenze a 7 bit consentendo 128 caratteri diversi.In questo schema originale, ogni byte a 7 bit rappresentava un carattere dell'alfabeto inglese, numerato in sequenza.Questo codifica per i personaggi era efficiente e alla fine è stato standardizzato e utilizzato nella maggior parte dei computer prodotti.Sebbene il sistema di codifica si sia evoluto in Unicode Codifica standard, il concetto è rimasto lo stesso.Vale a dire, ogni singolo carattere in una lingua è direttamente correlato a un singolo numero all'interno di un set di caratteri standard di grandi dimensioni e quel numero è ciò che un computer utilizza per archiviare, elaborare e indicizzare il carattere.

Altri tipi di codifica dei caratteri sono stati sviluppati per diversimotivi.Alcuni che erano orientati specificamente all'alfabeto inglese e intendevano essere usati per il testo mappavano i loro personaggi solo su sequenze a 7 bit e quindi li hanno diffusi attraverso byte a 8 bit o ottetti.Ciò ha avuto l'effetto di salvare 1 bit per ottetto, utilizzando efficacemente la codifica dei caratteri come tipo di compressione.Altri schemi di codifica hanno tentato di fornire informazioni di base su un personaggio, e quindi ulteriori personaggi per rappresentare accenti speciali che potrebbero essere usati quando si scrive in un linguaggio diverso, sebbene questi fossero ampiamente abbandonati per i metodi di codifica one-to-one più semplici.

I documenti HTML, la codifica dei caratteri è approssimativamente uguale al concetto più ampio, tranne che la codifica definita comprende un intero set di caratteri.Questo può essere importante non solo per le lingue straniere, ma per i documenti che usano simboli specifici per la scienza o la matematica che non sono presenti in tutti i set di personaggi.Può anche essere utile per l'uso di punteggiatura e altri glifi che potrebbero non essere presenti o mappati in modo diverso tra gli schemi di codifica.I documenti che non definiscono correttamente una codifica dei caratteri non standard potrebbero visualizzare in modo errato o essere riempiti con caratteri e segnaposto senza senso anziché informazioni leggibili.