Internet

Nén dữ liệu lossless là gì?

Nén dữ liệu không mất là một phương pháp máy tính lưu trữ các tệp và kết hợp chúng vào các tài liệu lưu trữ chiếm ít không gian vật lý hơn trong bộ nhớ so với các tệp nếu không sẽ mất bất kỳ thông tin nào mà dữ liệu chứa trong quy trình.Ngược lại, nén mất, giảm kích thước tệp với xấp xỉ dữ liệu và khôi phục là một bản fax gần với nội dung tệp gốc.Các thuật toán được sử dụng để nén dữ liệu không mất mát về cơ bản là một tập hợp các quy tắc hoặc hướng dẫn được sắp xếp hợp lý để mã hóa thông tin bằng cách sử dụng ít bit bộ nhớ hơn trong khi vẫn giữ được khả năng khôi phục dữ liệu về định dạng ban đầu mà không thay đổi.Nén bao gồm các tài liệu GZIP dựa trên máy tính quốc tế (IBM) và lưu trữ tệp GZIP dựa trên máy tính UNIX.Cũng được sử dụng là các định dạng tệp hình ảnh như định dạng trao đổi đồ họa (GIF), các tệp đồ họa mạng di động (PNG) và bitmap (BMP).Các thuật toán nén dữ liệu cũng thay đổi dựa trên loại tệp được nén, với các biến thể chung cho các tệp chương trình văn bản, âm thanh và thực thi.Hai loại thuật toán chính để nén dữ liệu không mất hiệu lực dựa trên mô hình thống kê dữ liệu đầu vào và mô hình ánh xạ các chuỗi bit trong tệp dữ liệu.Các thuật toán thống kê thông thường được sử dụng là biến đổi bánh xe Burrows (BWT), thuật toán Abraham Lempel và Jacob ZIV (LZ77) được xuất bản năm 1977, và dự đoán bằng phương pháp khớp một phần (PPM).Các thuật toán lập bản đồ thường được sử dụng bao gồm thuật toán mã hóa Huffman và mã hóa số học. Một số thuật toán nén dữ liệu không mất mát là các công cụ nguồn mở và các thuật toán khác được cấp bằng sáng chế và bằng sáng chế trên một số người cũng đã hết hạn.Điều này có thể dẫn đến các phương thức nén đôi khi được áp dụng cho định dạng tệp sai.Do thực tế là các phương thức nén dữ liệu nhất định không tương thích với nhau, việc lưu trữ các tệp hỗn hợp thường có thể làm suy giảm một thành phần của một tệp.Chẳng hạn, một tệp hình ảnh có văn bản được nén có thể hiển thị sự xuống cấp trong khả năng đọc của văn bản sau khi được khôi phục.Máy quét và phần mềm sử dụng cảm ứng ngữ pháp có thể trích xuất ý nghĩa từ văn bản được lưu trữ cùng với các tệp hình ảnh bằng cách áp dụng những gì được gọi là phân tích ngữ nghĩa tiềm ẩn (LSA).Sử dụng linh hoạt hơn so với mã hóa Huffman, nó không yêu cầu kiến thức về các giá trị số nguyên tối đa trước thời hạn.Tuy nhiên, mã hóa và mã hóa số học của Huffman sẽ tạo ra tỷ lệ nén dữ liệu tốt hơn, tuy nhiên.Những nỗ lực cũng đang được tiến hành để tạo ra các phương pháp nén dữ liệu phổ quát sẽ tạo ra các thuật toán hoạt động tốt cho nhiều nguồn khác nhau.