Skip to main content

Các phương pháp khai thác dữ liệu khác nhau là gì?

Có nhiều phương pháp khai thác dữ liệu khác nhau được sử dụng trong cả tùy chọn phần mềm và khái niệm lý thuyết.Chúng cho phép người dùng trích xuất thông tin từ dữ liệu được thu thập bởi các cá nhân và công ty sử dụng nhiều công cụ khác nhau.Một lượng lớn dữ liệu có thể được sử dụng để xác định các yếu tố khác nhau trong một chủ đề hoặc nhiều đối tượng.Các phương pháp khai thác dữ liệu này được sử dụng phổ biến nhất trong các lĩnh vực bảo vệ, tiếp thị và giám sát gian lận. Trong hàng trăm năm, các phương pháp khai thác dữ liệu đã được sử dụng để trích xuất thông tin từ các đối tượng.Tuy nhiên, các kỹ thuật hiện đại sử dụng các khái niệm tự động để cung cấp dữ liệu đáng kể thông qua các tài nguyên máy tính.Khi khoa học máy tính xuất hiện trong thế kỷ 20, khái niệm về các phương pháp khai thác dữ liệu được phát triển trong nỗ lực khắc phục các mô hình ẩn trong các dải dữ liệu được thu thập lớn.Một ví dụ điển hình về điều này là khi một công ty quảng cáo phân tích các mô hình mua sắm của một khách hàng trực tuyến.Công ty này sau đó có thể tiếp thị một số sản phẩm mà cá nhân có thể quan tâm đến việc mua. Một kỹ thuật khai thác dữ liệu được sử dụng phổ biến trong ngành được gọi là khám phá kiến thức trong cơ sở dữ liệu (KDD).Được phát triển vào năm 1989 bởi Gregory Piatetsky-Shapiro, KDD cho phép người dùng xử lý dữ liệu thô, phân tích thông tin cho dữ liệu cần thiết và giải thích kết quả.Phương pháp này cho phép người dùng tìm các mẫu trong các thuật toán, tuy nhiên, dữ liệu chung không phải lúc nào cũng chính xác và có thể được kết hợp với nhau theo cách thỏa hiệp.Điều này được gọi là

quá mức.Phân loại Lấy thông tin hiện tại và hợp nhất nó thành các nhóm được xác định.Phân cụm

loại bỏ các nhóm được xác định và cho phép dữ liệu tự phân loại theo các mục tương tự.Hồi quy

tập trung vào chức năng của thông tin, mô hình hóa dữ liệu về khái niệm.Phương pháp khai thác dữ liệu cuối cùng,

Association, cố gắng tìm mối quan hệ giữa các nguồn cấp dữ liệu khác nhau. Khi sử dụng các phương pháp khai thác dữ liệu khác nhau, một số tiêu chuẩn nhất định được sử dụng để xác định tham số nào có thể được sử dụng trong quy trình.Hiệp hội máy tính của Tập đoàn quan tâm đặc biệt về khám phá kiến thức và khai thác dữ liệu (SIGKDD) tổ chức một cuộc họp thường niên xác định quy trình nào phù hợp.Các yếu tố đạo đức được cân nhắc cùng với các ứng dụng thực tế để tìm thông tin tốt nhất về các cá nhân và công ty.Thông tin này được công bố trên một tạp chí công nghiệp có tên

Sigkdd Explorations.