Internet

Apa itu pengelompokan korelasi?

Clustering korelasi dilakukan pada database dan sumber data besar lainnya untuk mengelompokkan kumpulan data yang serupa, sementara juga mengingatkan pengguna ke set data yang berbeda.Ini dapat dilakukan dengan sempurna dalam beberapa grafik, sementara yang lain akan mengalami kesalahan karena akan sulit untuk membedakan yang serupa dari data yang berbeda.Dalam kasus yang terakhir, pengelompokan korelasi akan membantu mengurangi kesalahan secara otomatis.Ini sering digunakan untuk penambangan data, atau untuk mencari data yang sulit untuk kesamaan.Data yang berbeda biasanya dihapus, atau ditempatkan ke dalam cluster terpisah.

Ketika fungsi pengelompokan korelasi digunakan, ia mencari data berdasarkan instruksi pengguna.Pengguna akan memberi tahu program apa yang harus dicari dan, ketika ditemukan, di mana menempatkan data.Ini biasanya diterapkan pada sumber data yang sangat besar padahal tidak mungkin mdash;Atau butuh terlalu banyak jam mdash;untuk mencari melalui data secara manual.Mungkin ada pengelompokan yang sempurna atau pengelompokan yang tidak sempurna.

Clustering yang sempurna adalah skenario yang ideal.Ini berarti hanya ada dua jenis data, dan satu adalah apa yang dicari pengguna saat yang lain tidak dibutuhkan.Semua data yang positif, atau dibutuhkan, ditempatkan dalam satu cluster, sedangkan data lainnya dihapus atau dipindahkan.Dalam skenario ini, tidak ada kebingungan dan semuanya bekerja dengan sempurna.

Grafik paling kompleks tidak memungkinkan pengelompokan yang sempurna, dan, sebaliknya, tidak sempurna.Misalnya, grafik memiliki tiga variabel: x, y dan z. x, y serupa, x, z serupa, tetapi y, z berbeda.Tiga cluster variabel sangat mirip, sehingga tidak mungkin memiliki pengelompokan korelasi yang sempurna.Program ini akan bekerja untuk memaksimalkan jumlah korelasi positif, tetapi ini masih akan memerlukan beberapa pencarian manual dari pengguna.

Dalam penambangan data, terutama ketika berhadapan dengan set data yang besar, pengelompokan korelasi digunakan untuk mengelompokkan data yang sama dengan data serupa.Misalnya, jika data yang ditambang bisnis untuk situs web atau basis data besar dan hanya ingin tahu tentang aspek tertentu, perlu selamanya untuk mencari melalui semua data untuk aspek itu.Dengan menggunakan formula clustering, data akan disisihkan untuk analisis yang tepat.

Informasi yang berbeda ditangani hanya berdasarkan instruksi pengguna.Pengguna dapat memilih untuk mengirim data yang berbeda ke kluster yang berbeda, karena informasi tersebut mungkin berguna untuk proyek lain.Jika data tidak dibutuhkan dan hanya membuang -buang memori, maka informasi yang berbeda dibuang.Dalam pengelompokan yang tidak sempurna, ada kemungkinan bahwa beberapa informasi yang berbeda tidak akan dibuang, karena sangat mirip dengan data yang dilihat pengguna.