Skip to main content

Khai thác dữ liệu là gì?

Khai thác dữ liệu sử dụng một lượng công suất điện toán tương đối lớn hoạt động trên một bộ dữ liệu lớn để xác định các quy tắc và kết nối giữa các điểm dữ liệu.Các thuật toán sử dụng các kỹ thuật từ thống kê, học máy và nhận dạng mẫu được sử dụng để tự động tìm kiếm cơ sở dữ liệu lớn.Khai thác dữ liệu còn được gọi là khám phá kiến thức trong cơ sở dữ liệu (KDD). Giống như thuật ngữ

Trí tuệ nhân tạo

, khai thác dữ liệu là một thuật ngữ ô có thể được áp dụng cho một số hoạt động khác nhau.Trong thế giới doanh nghiệp, khai thác dữ liệu được sử dụng thường xuyên nhất để xác định hướng của xu hướng và dự đoán tương lai.Nó được sử dụng để xây dựng các mô hình và các hệ thống hỗ trợ quyết định cung cấp cho mọi người thông tin họ có thể sử dụng.Khai thác dữ liệu đóng vai trò tiền tuyến trong cuộc chiến chống khủng bố.Nó được cho là được sử dụng để xác định người lãnh đạo của các cuộc tấn công 9/11.

Người khai thác dữ liệu là các nhà thống kê sử dụng các kỹ thuật với các tên như mô hình gần như hàng xómXác thực chéo

, phương pháp

ret-one-out , v.v.Kỹ thuật hồi quy được sử dụng để trừ các mẫu không liên quan, chỉ để lại thông tin hữu ích.Thuật ngữ Bayesian được nhìn thấy thường xuyên trong lĩnh vực này, đề cập đến một nhóm các kỹ thuật suy luận dự đoán khả năng các sự kiện trong tương lai bằng cách kết hợp các xác suất và xác suất trước đó dựa trên các sự kiện có điều kiện.Lọc thư rác được cho là một hình thức khai thác dữ liệu, tự động đưa các thông điệp có liên quan lên bề mặt từ một biển hỗn loạn của các nỗ lực lừa đảo và các sân viagra. Cây quyết định được sử dụng để lọc dãy núi dữ liệu.Trong một cây quyết định, tất cả dữ liệu đều đi qua một nút lối vào, nơi nó đối mặt với bộ lọc tách dữ liệu thành các luồng tùy thuộc vào đặc điểm của nó.Ví dụ, dữ liệu về hành vi của người tiêu dùng có thể được lọc dựa trên các yếu tố nhân khẩu học.Khai thác dữ liệu không chủ yếu về đồ thị lạ mắt và kỹ thuật trực quan, nhưng nó sử dụng chúng để hiển thị những gì nó đã tìm thấy.Được biết rằng chúng ta có thể hấp thụ nhiều thông tin thống kê về mặt trực quan hơn bằng lời nói và định dạng này để trình bày có thể rất thuyết phục và mạnh mẽ nếu được sử dụng trong bối cảnh đúng.Môi trường, chúng ta sẽ vô tình khám phá những điều có thể bị bỏ lỡ trong lần vượt qua đầu tiên.Khai thác dữ liệu sẽ cho phép chúng tôi sửa những sai lầm này và khám phá những hiểu biết mới dựa trên dữ liệu trong quá khứ, mang lại cho chúng tôi nhiều hơn cho việc lưu trữ dữ liệu của mình.