Skip to main content

Dữ liệu phân phối là gì?

Dữ liệu phân phối là một kỹ thuật nén dữ liệu trong đó dữ liệu trùng lặp bị xóa, duy trì một bản sao của từng đơn vị thông tin trên một hệ thống thay vì cho phép bội số phát triển mạnh.Các bản sao được giữ lại có tài liệu tham khảo cho phép hệ thống truy xuất chúng.Kỹ thuật này làm giảm nhu cầu về không gian lưu trữ và có thể giữ cho các hệ thống chạy nhanh hơn ngoài việc hạn chế các chi phí liên quan đến lưu trữ dữ liệu.Nó có thể hoạt động theo một số cách và được sử dụng trên nhiều loại hệ thống máy tính. Trong quá trình sao chép dữ liệu cấp tệp, hệ thống tìm kiếm bất kỳ tệp trùng lặp nào và xóa các tính năng bổ sung.Việc sao chép cấp độ khối xem xét các khối dữ liệu trong các tệp để xác định dữ liệu bên ngoài.Mọi người có thể kết thúc với dữ liệu nhân đôi vì nhiều lý do khác nhau và sử dụng sự sao chép dữ liệu có thể hợp lý hóa một hệ thống, giúp việc sử dụng dễ dàng hơn.Hệ thống có thể định kỳ thông qua dữ liệu để kiểm tra các bản sao, loại bỏ các tính năng bổ sung và tạo tài liệu tham khảo cho các tệp bị bỏ lại phía sau. Các hệ thống như vậy đôi khi được gọi là hệ thống nén thông minh hoặc hệ thống lưu trữ đơn.Cả hai thuật ngữ đều tham chiếu ý tưởng rằng hệ thống hoạt động thông minh để lưu trữ và tệp dữ liệu để giảm tải trên hệ thống.Sự trùng lặp dữ liệu có thể đặc biệt có giá trị với các hệ thống lớn trong đó dữ liệu từ một số nguồn được lưu trữ và chi phí lưu trữ liên tục tăng, vì hệ thống cần được mở rộng theo thời gian.để nén và quản lý dữ liệu.Sự trùng lặp dữ liệu không thể bảo vệ các hệ thống khỏi virus và lỗi, và điều quan trọng là sử dụng bảo vệ chống vi -rút đầy đủ để giữ cho hệ thống an toàn và hạn chế nhiễm virus của các tệp trong khi cũng sao lưu tại một vị trí riêng biệt để giải quyết các lo ngại về mất dữ liệu do mất điện, thiệt hạithiết bị, và vv.Có dữ liệu được nén trước khi sao lưu sẽ tiết kiệm thời gian và tiền bạc. Các hệ thống sử dụng sự sao chép dữ liệu trong bộ nhớ của họ có thể chạy nhanh hơn và hiệu quả hơn.Họ vẫn sẽ yêu cầu mở rộng định kỳ để phù hợp với dữ liệu mới và giải quyết các mối quan tâm về bảo mật, nhưng họ sẽ ít bị lấp đầy nhanh chóng với dữ liệu trùng lặp.Đây là một mối quan tâm đặc biệt phổ biến trên các máy chủ email, trong đó máy chủ có thể lưu trữ một lượng lớn dữ liệu cho người dùng và các khối đáng kể của nó có thể bao gồm các bản sao như cùng một tệp đính kèm được lặp đi lặp lại;Ví dụ, nhiều người gửi email từ công việc có chân dung với các từ chối email và logo của công ty, và những người này có thể ăn hết không gian máy chủ.