Skip to main content

Khai thác dữ liệu thống kê là gì?

Khai thác dữ liệu thống kê, còn được gọi là kiến thức hoặc khám phá dữ liệu, là một phương pháp thu thập và phân tích thông tin trên máy vi tính.Công cụ khai thác dữ liệu lấy dữ liệu và phân loại thông tin để khám phá các mẫu hoặc tương quan có thể được sử dụng trong các ứng dụng quan trọng, như y học, lập trình máy tính, quảng bá kinh doanh và thiết kế robot.Kỹ thuật khai thác dữ liệu thống kê sử dụng toán học phức tạp và các quy trình thống kê phức tạp để tạo ra phân tích. Khai thác dữ liệu bao gồm năm bước chính.Ứng dụng khai thác dữ liệu đầu tiên thu thập dữ liệu thống kê và đặt thông tin trong chương trình loại kho.Tiếp theo, dữ liệu trong kho được tổ chức và tạo ra một hệ thống quản lý.Bước tiếp theo tạo ra một cách để truy cập dữ liệu được quản lý.Sau đó, bước thứ tư phát triển phần mềm để phân tích dữ liệu, còn được gọi là hồi quy khai thác dữ liệu, trong khi bước cuối cùng tạo điều kiện sử dụng hoặc giải thích dữ liệu thống kê theo cách thực tế. Nói chung, các kỹ thuật khai thác dữ liệu tích hợp các hệ thống dữ liệu phân tích và giao dịch.Phần mềm phân tích sắp xếp thông qua cả hai loại hệ thống dữ liệu bằng cách sử dụng các câu hỏi người dùng mở.Các câu hỏi mở cho phép vô số câu trả lời để các lập trình viên không ảnh hưởng đến kết quả sắp xếp.Các lập trình viên tạo danh sách các câu hỏi để hỗ trợ phân loại thông tin bằng cách sử dụng trọng tâm tổng thể.

Sắp xếp sau đó dựa trên việc phát triển các lớp và cụm dữ liệu, các hiệp hội được tìm thấy trong dữ liệu và cố gắng xác định các mẫu và xu hướng dựa trên các hiệp hội.Ví dụ: Google thu thập thông tin về thói quen mua hàng của người dùng để hỗ trợ đặt quảng cáo trực tuyến.Các câu hỏi mở được sử dụng để sắp xếp dữ liệu người mua này tập trung vào việc mua tùy chọn hoặc xem thói quen của người dùng internet. Các nhà khoa học và lập trình viên máy tính tập trung vào phân tích dữ liệu thống kê được thu thập.Tạo ra các cây quyết định, mạng thần kinh nhân tạo, phương pháp hàng xóm gần nhất, cảm ứng quy tắc, trực quan hóa dữ liệu và thuật toán di truyền đều sử dụng dữ liệu được thực hiện thống kê.Các hệ thống phân loại này hỗ trợ giải thích các hiệp hội được phát hiện bởi các chương trình dữ liệu phân tích.Khai thác dữ liệu thống kê liên quan đến các dự án nhỏ có thể được thực hiện ở quy mô nhỏ trên máy tính gia đình, nhưng hầu hết các bộ liên kết khai thác dữ liệu đều rất lớn và hồi quy khai thác dữ liệu phức tạp đến mức chúng yêu cầu siêu máy tính hoặc mạng máy tính tốc độ cao.Khai thác dữ liệu thống kê thu thập ba loại dữ liệu chung, bao gồm dữ liệu hoạt động, dữ liệu phi hoạt động và dữ liệu meta.Trong một cửa hàng quần áo, dữ liệu hoạt động là dữ liệu cơ bản được sử dụng để điều hành doanh nghiệp, chẳng hạn như kế toán, bán hàng và kiểm soát hàng tồn kho.Dữ liệu phi hoạt động, liên quan gián tiếp đến doanh nghiệp, bao gồm các ước tính về bán hàng trong tương lai và thông tin chung về thị trường quần áo quốc gia.Dữ liệu meta liên quan đến chính dữ liệu.Một chương trình sử dụng dữ liệu meta có thể sắp xếp khách hàng lưu trữ các phân loại dựa trên vị trí giới tính hoặc địa lý của người mua quần áo hoặc màu sắc yêu thích của khách hàng, nếu dữ liệu đó được thu thập.có các ứng dụng thực tế rộng rãi.Nghiên cứu về dịch bệnh là một ví dụ.Một dự án khai thác dữ liệu 2000 đã phân tích sự bùng phát bệnh của Cryptosporidium ở Ontario, Canada để xác định nguyên nhân của sự gia tăng các trường hợp bệnh.Kết quả khai thác dữ liệu được hỗ trợ trong việc liên kết vi khuẩn bùng phát với điều kiện nước địa phương và thiếu xử lý nước thành phố thích hợp.Một lĩnh vực được gọi là Biosurveillance sử dụng khai thác dữ liệu dịch tễ học để xác định sự bùng phát của một bệnh. Các lập trình viên và nhà thiết kế máy tính cũng sử dụng nghiên cứu xác suất và phân tích dữ liệu thống kê để phát triển máy móc và chương trình máy tính.Công cụ tìm kiếm trên Internet được thiết kế bằng cách sử dụng dữ liệu thống kê MIning.Google tiếp tục thu thập và sử dụng khai thác dữ liệu để tạo các ứng dụng và cập nhật chương trình.