Skip to main content

Dữ liệu lớn là gì?

Dữ liệu lớn là các phép đo dữ liệu đã phát triển lớn đến mức cơ sở dữ liệu thông thường không thể chứa và làm việc với lượng thông tin khổng lồ.Dữ liệu có ba kích cỡ: nhỏ, trung bình và lớn;Không có phép đo nào trong số này là nghiêm ngặt;Thay vào đó, mỗi phụ thuộc nhiều hơn vào việc dễ sử dụng hơn và loại máy nào có thể xử lý thông tin.Các máy đặc biệt, lớn hơn nhiều và phức tạp so với các máy được sử dụng cho cơ sở dữ liệu thông thường, là cần thiết cho dữ liệu lớn.Các loại dữ liệu này thường được tìm thấy trong các cơ quan khoa học của chính phủ và khoa học, nhưng một số trang web rất lớn cũng chứa lượng thông tin lớn này. Dữ liệu có ba kích thước tiêu chuẩn, nhưng không nghiêm ngặt.Dữ liệu nhỏ có thể phù hợp với một máy tính hoặc máy, chẳng hạn như máy tính xách tay.Dữ liệu trung bình có thể phù hợp với mảng đĩa và được quản lý tốt nhất bởi cơ sở dữ liệu.Cơ sở dữ liệu, cho dù lớn đến đâu, không có khả năng làm việc với dữ liệu lớn và thay vào đó, các hệ thống đặc biệt được sử dụng nhiều.Mặc dù không có hướng dẫn nghiêm ngặt về dữ liệu lớn, nhưng nó thường bắt đầu xung quanh cấp độ terabyte (TB) và đi lên mức petabyte (PB).Lượng dữ liệu sẽ gây ra một số vấn đề đáng kể.Cơ sở dữ liệu không thể xử lý lượng thông tin, vì vậy một số dữ liệu phải được xóa.Điều này giống như cố gắng để phù hợp với 100 gigabyte (GB) trên máy tính chỉ với không gian ổ cứng 50 GB;nó không thể được thực hiện.Dữ liệu còn lại sẽ khó sử dụng cả kiểm soát và quản lý, vì mọi chức năng sẽ mất nhiều thời gian để hoàn thành và cơ sở dữ liệu phải được đóng lại để gửi mới. Trong khi có thể tiếp tục mua máy và thêm dữ liệu mới vào cơ sở dữ liệu, Điều này tạo ra vấn đề khó sử dụng.Điều này là do phần mềm cơ sở dữ liệu chỉ được thực hiện để hoạt động với dữ liệu trung bình.Các bộ dữ liệu lớn hơn dẫn đến lỗi và các vấn đề quản trị, vì phần mềm chỉ đơn giản là không thể di chuyển hoặc làm việc với dữ liệu lớn mà không gặp phải vấn đề. Dữ liệu lớn không gặp phải bởi hầu hết các tổ chức hoặc trang web.Các cơ quan quốc phòng và quân sự sử dụng lượng thông tin này để tạo ra các mô hình và lưu trữ kết quả kiểm tra, và nhiều cơ quan khoa học lớn cần các máy chuyên dụng này vì những lý do tương tự.Một số trang web rất lớn cần các máy dữ liệu lớn, nhưng các trang web không phổ biến như các cơ quan trong thị trường này.Các tổ chức này cần giữ tất cả dữ liệu của họ, bởi vì nó giúp phân tích dữ liệu trong tương lai tốt hơn và đưa ra dự đoán.