Skip to main content

Dữ liệu bẩn là gì?

Dữ liệu bẩn

là một thuật ngữ được sử dụng để mô tả bất kỳ loại dữ liệu điện tử nào đã lỗi thời, không đầy đủ hoặc không chính xác.Dữ liệu thuộc loại này có thể được tạo do lỗi trong nhập dữ liệu, việc không cập nhật dữ liệu một cách thường xuyên hoặc thậm chí là mục nhập của cùng một dữ liệu nhiều lần.Đôi khi, dữ liệu không chính xác không có gì khác hơn là lỗi trong dấu chấm câu trong văn bản của các tài liệu điện tử.Trong các trường hợp khác, dữ liệu bẩn có thể là thông tin có chủ ý sai lệch, chẳng hạn như cố gắng sửa đổi hồ sơ kế toán để trình bày một hình ảnh cụ thể cho các nhà đầu tư và những người khác.Phần lớn, việc tích lũy dữ liệu bẩn trong bất kỳ loại cơ sở dữ liệu nào là không chủ ý.Các cá nhân đang nhập thông tin mới vào cơ sở dữ liệu có thể viết sai các từ, bỏ dấu câu rất quan trọng để hiểu ý định của văn bản hoặc không tuân theo một chiến lược định dạng cụ thể.Với các tình huống của loại này, việc sửa thông tin không chính xác là một quy trình tương đối đơn giản, không đòi hỏi gì hơn là thay đổi văn bản không chính xác và lưu các thay đổi.Các doanh nghiệp đôi khi quản lý quá trình này bằng cách đọc lại dữ liệu sau khi được nhập và thực hiện các bản cập nhật cần thiết.Dữ liệu bẩn cũng có thể xảy ra do không cập nhật các hồ sơ hiện có khi thông tin thay đổi.Ví dụ: nếu nhân viên bán hàng không cập nhật tệp khách hàng khi thay đổi nhân sự xảy ra với một khách hàng nhất định, các tệp đó không còn chính xác và được coi là bẩn.Như với việc sửa lỗi chính tả và lỗi chấm câu, dành thời gian để xóa thông tin lỗi thời và thay thế nó bằng dữ liệu hiện tại giúp tăng khả năng sử dụng chung của cơ sở dữ liệu.Có những tình huống tạo ra dữ liệu bẩn là cố ý.Các công ty có thể chọn bỏ qua thông tin cụ thể từ cơ sở dữ liệu để tạo ra một nhận thức cụ thể về tài chính, chẳng hạn như làm nổi bật số tiền doanh thu được tạo trong một khoảng thời gian nhất định, nhưng chọn không nhập dữ liệu liên quan đến số tiền thu đượcGiai đoạn.Trong loại dữ liệu bẩn này, thông tin được trình bày là chính xác theo như nó đi, nhưng được coi là không đầy đủ.Với một số loại dữ liệu bẩn, quyết định có thể không dành thời gian và nỗ lực để sửa chữa.Điều này là phổ biến khi dữ liệu không chính xác không có bất kỳ tác động nào đến khả năng của doanh nghiệp hoạt động đúng hoặc không có tiềm năng gây ra bất kỳ sự đau khổ lớn nào.Điều này có nghĩa là bất kỳ thực thể nào duy trì một số loại cơ sở dữ liệu có thể có ít nhất một chút dữ liệu bẩn xen kẽ với các thông tin khác hiện tại và chính xác.