Skip to main content

Quá trình khai thác dữ liệu là gì?

Quá trình khai thác dữ liệu là một công cụ để khám phá các mẫu có ý nghĩa thống kê trong một lượng lớn dữ liệu.Nó thường liên quan đến năm bước chính, bao gồm chuẩn bị, khám phá dữ liệu, xây dựng mô hình, triển khai và xem xét.Mỗi bước trong quy trình bao gồm một tập hợp các kỹ thuật khác nhau, nhưng hầu hết sử dụng một số hình thức phân tích thống kê. Trước khi quá trình khai thác dữ liệu có thể bắt đầu, các nhà nghiên cứu thường đặt ra các mục tiêu nghiên cứu.Bước chuẩn bị này thường xác định loại dữ liệu cần được nghiên cứu, nên sử dụng các kỹ thuật khai thác dữ liệu nào và hình thức kết quả sẽ thực hiện.Bước ban đầu này trong quá trình này có thể rất quan trọng để thu thập thông tin hữu ích. Bước tiếp theo trong quy trình khai thác dữ liệu là thăm dò.Bước này thường liên quan đến việc thu thập dữ liệu cần thiết từ kho thông tin hoặc thực thể thu thập.Sau đó, các chuyên gia khai thác thường chuẩn bị các bộ dữ liệu thô để phân tích.Bước này thường bao gồm việc thu thập, làm sạch, tổ chức và kiểm tra tất cả dữ liệu cho các lỗi. Dữ liệu được chuẩn bị này thường vào bước thứ ba trong quy trình khai thác dữ liệu, xây dựng mô hình.Để thực hiện điều này, các nhà nghiên cứu thường lấy các mẫu dữ liệu thử nghiệm nhỏ và áp dụng nhiều kỹ thuật khai thác dữ liệu cho họ.Bước mô hình hóa thường được sử dụng để xác định phương pháp phân tích thống kê tốt nhất cần thiết để đạt được kết quả mong muốn. Có bốn kỹ thuật chính có thể được áp dụng trong quy trình khai thác dữ liệu.Đầu tiên là phân loại, sắp xếp dữ liệu thành các nhóm hoặc danh mục được xác định trước.Trong kỹ thuật thứ hai, được gọi là phân cụm, các nhà nghiên cứu cho phép máy tính sắp xếp dữ liệu thành các nhóm, như nó chọn.Một kỹ thuật khai thác dữ liệu thứ ba tìm kiếm sự liên kết giữa các biến.Thứ tư thường tìm kiếm các mẫu tuần tự trong dữ liệu có thể được sử dụng để dự đoán các xu hướng trong tương lai. Bước cuối cùng trong quy trình khai thác dữ liệu là triển khai.Để làm điều này, các kỹ thuật được chọn trong mô hình được áp dụng cho tập dữ liệu lớn hơn và kết quả được phân tích.Báo cáo xuất phát từ bước này thường hiển thị các mẫu được tìm thấy trong toàn bộ quy trình, bao gồm mọi phân loại, cụm, liên kết hoặc các mẫu tuần tự tồn tại trong tập dữ liệu.

Đánh giá thường là một bước cuối cùng quan trọng.Giai đoạn này trong quá trình này thường liên quan đến việc lặp lại các mô hình khai thác với một bộ dữ liệu mới để đảm bảo rằng bộ chính là đại diện cho toàn bộ dân số dữ liệu.Các kết quả không thể dự đoán các xu hướng trong dân số lớn hơn nếu mẫu dữ liệu không thể hiện chính xác nó.