Skip to main content

Phân loại khai thác dữ liệu là gì?

Phân loại khai thác dữ liệu là một bước trong quá trình khai thác dữ liệu.Nó được sử dụng để nhóm các mục dựa trên các đặc điểm chính nhất định.Có một số kỹ thuật được sử dụng để phân loại khai thác dữ liệu, bao gồm phân loại hàng xóm gần nhất, học cây quyết định và máy vectơ hỗ trợ. Khai thác dữ liệu là một phương pháp các nhà nghiên cứu sử dụng để trích xuất các mẫu từ dữ liệu.Nói chung, một mẫu đại diện được chọn từ nhóm dữ liệu và sau đó thao tác và phân tích để tìm các mẫu.Ngoài việc phân loại khai thác dữ liệu, các nhà nghiên cứu cũng có thể sử dụng phân cụm, hồi quy và học quy tắc để phân tích dữ liệu. Có một số thuật toán có thể được sử dụng trong phân loại khai thác dữ liệu.Phân loại hàng xóm gần nhất là một trong những thuật toán phân loại khai thác dữ liệu đơn giản nhất.Nó dựa vào một bộ đào tạo.Một bộ đào tạo là một tập hợp dữ liệu được sử dụng để đào tạo máy tính chú ý đến các biến nhất định.Trong phân loại hàng xóm gần nhất, máy tính chỉ đơn giản phân loại tất cả dữ liệu là một phần của nhóm chứa dữ liệu gần nhất về giá trị với đầu vào.

Học tập cây quyết định sử dụng mô hình phân nhánh để phân loại dữ liệu.Máy tính về cơ bản hỏi một loạt các câu hỏi về dữ liệu.Nếu câu trả lời cho câu hỏi đầu tiên là đúng, nó sẽ đặt câu hỏi 2A.Nếu câu trả lời là sai, nó hỏi câu hỏi 2b.Khi rút ra, phương pháp này tạo thành một cây các đường phân nhánh.

naive Bayes Phân loại dựa vào xác suất.Nó hỏi một loạt các câu hỏi về từng phần dữ liệu và sau đó sử dụng câu trả lời để xác định xác suất dữ liệu thuộc về một phân loại cụ thể.Điều này khác với việc học cây quyết định vì câu trả lời cho câu hỏi đầu tiên không ảnh hưởng đến câu hỏi nào sẽ được đặt ra tiếp theo. Các phương pháp phân loại khai thác dữ liệu phức tạp hơn bao gồm các mạng thần kinh và máy vectơ hỗ trợ.Các phương pháp này là các mô hình dựa trên máy tính sẽ khó thực hiện bằng tay.Mạng lưới thần kinh thường được sử dụng trong lập trình trí tuệ nhân tạo vì nó bắt chước bộ não con người.Nó lọc thông tin thông qua một loạt các nút tìm các mẫu và sau đó phân loại thông tin.Khi thông tin mới được đưa vào máy, nó được vẽ trên biểu đồ.Dữ liệu sau đó được phân loại dựa trên danh mục thông tin rơi gần nhất trên biểu đồ.Phương pháp này chỉ hoạt động khi có hai tùy chọn để lựa chọn.