Skip to main content

Tích hợp dữ liệu là gì?

Tích hợp dữ liệu là sự hợp nhất của nhiều nguồn dữ liệu vào một nguồn dữ liệu.Thực tiễn này thường rất tốn thời gian và liên quan, vì các nguồn dữ liệu khác nhau có khả năng không tương thích với nhau.Mọi thứ đơn giản như các tên cột khác nhau trên bảng tính là đủ để yêu cầu định dạng lại ngày.Quá trình này là phổ biến nhất trong các tình huống mà hai nhóm bắt đầu không có kết nối, nhưng được đặt cùng nhau sau khi chúng hoạt động độc lập.Tích hợp dữ liệu đã trở thành một chủ đề quan trọng hơn do sự phổ biến của các nguồn dữ liệu miễn phí và cơ sở dữ liệu trực tuyến.Phần dữ liệu của tích hợp dữ liệu có thể là hầu hết mọi thứ miễn là nó được lưu trữ trong hệ thống máy tính.Nội dung thực tế của dữ liệu hiếm khi quan trọng như cách lưu trữ dữ liệu.Hầu hết thời gian, dữ liệu được lưu giữ trong cơ sở dữ liệu, hệ thống thông tin có tổ chức.Các hệ thống này chứa các mục và trường duy nhất cho phép người dùng tìm thấy thông tin một cách nhanh chóng.

Rào cản lớn nhất đối với bất kỳ quy trình tích hợp dữ liệu nào là chính dữ liệu.Trong nhiều trường hợp, khi dữ liệu được thiết lập lần đầu tiên, không có ý định hợp nhất bộ dữ liệu với một dữ liệu khác.Điều này có nghĩa là mặc dù hai bộ dữ liệu có thể đề cập đến cùng một thứ, nhưng chúng hoàn toàn không tương thích.

Hầu hết mọi thứ sẽ làm cho cơ sở dữ liệu không tương thích.Một cái gì đó đơn giản như một sự khác biệt trong trình bày, chẳng hạn như thứ tự trường hoặc chiều rộng cột, có thể đủ để ngăn chặn sự hợp nhất dễ dàng.Khi dữ liệu khác nhau đáng kể, chẳng hạn như một cơ sở dữ liệu chứa nhiều thông tin hơn, việc hợp nhất sẽ khó khăn hơn nhiều.Trong thế giới kinh doanh, các bộ phận hợp nhất hoặc các công ty yêu cầu kết hợp các thông tin riêng biệt trước đây thành một cấu trúc duy nhất.Hình thức tích hợp này thường rất khó khăn trừ khi các nhóm ban đầu sử dụng phần mềm tương tự và có các mục tiêu thông tin tương tự. Khi tích hợp dữ liệu được thực hiện cho mục đích nghiên cứu, nó thường diễn ra suôn sẻ hơn nhiều.Khi một nhà nghiên cứu cung cấp quyền truy cập vào thông tin của mình cho người khác, hai bên thường nhìn vào cùng một quy trình.Điều này có nghĩa là họ sẽ sử dụng các phương pháp tương tự để danh mục và lưu trữ dữ liệu của họ. Trước đây, tích hợp dữ liệu là một lĩnh vực nghiên cứu dữ liệu tương đối nhỏ, nhưng điều này đã thay đổi từ đầu thế kỷ 21.Với cơ sở dữ liệu trực tuyến miễn phí trở nên phổ biến và chính xác hơn, các công ty đang tranh giành để có được thông tin của họ ở định dạng có thể chia sẻ.Điều này cho phép cả hai đều phát hành thông tin của mình dưới dạng công khai và tích hợp các phiên bản riêng của các giao diện công cộng nổi tiếng vào hệ thống của họ.