Internet

Phân cụm tương quan là gì?

Phân cụm tương quan được thực hiện trên cơ sở dữ liệu và các nguồn dữ liệu lớn khác để nhóm các bộ dữ liệu tương tự với nhau, đồng thời cảnh báo người dùng về các bộ dữ liệu không giống nhau.Điều này có thể được thực hiện hoàn hảo trong một số biểu đồ, trong khi những biểu đồ khác sẽ gặp lỗi vì sẽ khó phân biệt tương tự với dữ liệu không giống nhau.Trong trường hợp sau, phân cụm tương quan sẽ giúp giảm lỗi tự động.Điều này thường được sử dụng để khai thác dữ liệu hoặc để tìm kiếm dữ liệu khó sử dụng cho sự tương đồng.Dữ liệu không giống nhau thường bị xóa hoặc được đặt vào một cụm riêng biệt. Khi hàm phân cụm tương quan được sử dụng, nó tìm kiếm dữ liệu dựa trên các hướng dẫn của người dùng.Người dùng sẽ nói với chương trình những gì cần tìm kiếm và, khi nó được tìm thấy, nơi đặt dữ liệu.Điều này thường được áp dụng cho các nguồn dữ liệu rất lớn khi nó là không thể mdash;hoặc mất quá nhiều giờ mdash;Để tìm kiếm thông qua dữ liệu theo cách thủ công.Có thể có phân cụm hoàn hảo hoặc phân cụm không hoàn hảo. Phân cụm hoàn hảo là kịch bản lý tưởng.Điều này có nghĩa là chỉ có hai loại dữ liệu và một là những gì người dùng đang tìm kiếm trong khi loại còn lại không cần thiết.Tất cả dữ liệu tích cực hoặc cần thiết, được đặt trong một cụm, trong khi dữ liệu khác bị xóa hoặc di chuyển.Trong kịch bản này, không có sự nhầm lẫn và mọi thứ hoạt động hoàn hảo. Hầu hết các biểu đồ phức tạp không cho phép phân cụm hoàn hảo, và thay vào đó, không hoàn hảo.Ví dụ, một biểu đồ có ba biến: x, y và z. x, y tương tự nhau, x, z là tương tự, nhưng y, z không giống nhau.Ba cụm biến rất giống nhau, tuy nhiên, không thể có cụm tương quan hoàn hảo.Chương trình sẽ hoạt động để tối đa hóa số lượng tương quan tích cực, nhưng điều này vẫn sẽ yêu cầu một số tìm kiếm thủ công từ người dùng. Trong khai thác dữ liệu, đặc biệt là khi xử lý các bộ dữ liệu lớn, phân cụm tương quan được sử dụng để nhóm dữ liệu tương tự với dữ liệu tương tự.Ví dụ: nếu một doanh nghiệp khai thác dữ liệu cho một trang web hoặc cơ sở dữ liệu lớn và chỉ muốn biết về một khía cạnh cụ thể, sẽ mất mãi mãi để tìm kiếm tất cả dữ liệu cho khía cạnh đó.Bằng cách sử dụng công thức phân cụm, dữ liệu sẽ được đặt sang một bên để phân tích thích hợp. Thông tin không giống nhau được xử lý chỉ dựa trên hướng dẫn của người dùng.Người dùng có thể chọn gửi dữ liệu không giống nhau đến các cụm khác nhau, vì thông tin có thể hữu ích cho các dự án khác.Nếu dữ liệu không cần thiết và chỉ lãng phí bộ nhớ, thì thông tin không giống nhau sẽ bị loại bỏ.Trong phân cụm không hoàn hảo, có thể một số thông tin không giống nhau sẽ không bị loại bỏ, bởi vì nó rất giống với dữ liệu mà người dùng đang tìm kiếm.