Qu'est-ce que la compression de données sans perte?

La compression de données sans perte est une méthode informatique pour stocker et fusionner des fichiers dans des archives qui occupent moins d'espace physique que les fichiers sans perdre les informations contenues dans les données. En revanche, la compression avec perte réduit la taille du fichier avec des approximations des données, et la récupération est presque en fac-similé avec le contenu du fichier d'origine. Les algorithmes utilisés pour la compression de données sans perte sont essentiellement un ensemble de règles ou d'instructions optimisées pour coder les informations en utilisant moins de bits de mémoire tout en conservant la possibilité de restaurer les données à leur format d'origine sans modification.

Les types de fichiers courants qui utilisent la compression de données sans perte incluent les archives informatisées de fichiers zip et gzip d'International Business Machines (IBM). Les formats de fichiers image tels que les fichiers GIF (Graphic Interchange Format), les fichiers PNG (Portable Network Graphics) et les fichiers BMP (Bitmap) sont également utilisés. Les algorithmes de compression des données varient également en fonction du type de fichier en cours de compression, avec des variations fréquentes pour les fichiers de programme texte, audio et exécutable.

Les deux principales catégories d'algorithmes de compression de données sans perte sont basées sur un modèle statistique de données d'entrée et un modèle de mappage de séquences de bits dans un fichier de données. Les algorithmes statistiques couramment utilisés sont la transformation de Burrows-Wheeler (BWT), l'algorithme Abraham-Lempel-et-Jacob-Ziv (LZ77) publié en 1977 et la méthode PPM (Prediction by Partial Matching). Les algorithmes de cartographie couramment utilisés incluent l'algorithme de codage Huffman et le codage arithmétique.

Certains des algorithmes de compression de données sans perte sont des outils open source et d'autres sont propriétaires et brevetés, bien que certains d'entre eux aient également expiré. Cela peut entraîner des méthodes de compression parfois appliquées au mauvais format de fichier. Étant donné que certaines méthodes de compression de données ne sont pas compatibles entre elles, l'enregistrement de fichiers mixtes peut souvent affecter un composant d'un fichier. Par exemple, un fichier image avec du texte compressé peut indiquer une détérioration de la lisibilité du texte restauré. Les scanners et les logiciels qui utilisent l'induction grammaticale, ainsi que les fichiers image, peuvent utiliser la soi-disant analyse sémantique latente (LSA) pour comprendre le texte stocké.

Une autre forme d'algorithme de mappage pour la compression de données sans perte est l'utilisation de code universel. Il est plus flexible à utiliser que le codage Huffman et ne nécessite pas de connaissance préalable des valeurs entières maximales. Cependant, le codage Huffman et le codage arithmétique conduisent à de meilleurs taux de compression des données. Des efforts sont également déployés pour développer des méthodes de compression de données universelles qui peuvent être utilisées pour créer des algorithmes qui fonctionnent bien pour une variété de sources.

Qu'est-ce que la compression de données sans perte?

Cet article vous a‑t‑il été utile ?