Internet

Apa itu klasifikasi penambangan data?

Klasifikasi penambangan data adalah satu langkah dalam proses penambangan data.Ini digunakan untuk mengelompokkan item berdasarkan karakteristik utama tertentu.Ada beberapa teknik yang digunakan untuk klasifikasi penambangan data, termasuk klasifikasi tetangga terdekat, pembelajaran pohon keputusan, dan mesin vektor dukungan.

Penambangan data adalah metode yang digunakan peneliti untuk mengekstrak pola dari data.Umumnya sampel yang representatif dipilih dari kumpulan data dan kemudian dimanipulasi dan dianalisis untuk menemukan pola.Selain klasifikasi penambangan data, para peneliti juga dapat menggunakan pengelompokan, regresi, dan pembelajaran aturan untuk menganalisis data.

Ada beberapa algoritma yang dapat digunakan dalam klasifikasi penambangan data.Klasifikasi tetangga terdekat adalah salah satu algoritma klasifikasi penambangan data yang paling sederhana.Ini bergantung pada set pelatihan.Set pelatihan adalah satu set data yang digunakan untuk melatih komputer agar memperhatikan variabel -variabel tertentu.Dalam klasifikasi tetangga terdekat, komputer hanya mengklasifikasikan semua data sebagai bagian dari grup yang berisi data yang paling dekat dengan input.

Pembelajaran pohon keputusan menggunakan model percabangan untuk mengklasifikasikan data.Komputer pada dasarnya mengajukan serangkaian pertanyaan tentang data.Jika jawaban untuk pertanyaan pertama adalah benar, ia mengajukan pertanyaan 2A.Jika jawabannya salah, ia mengajukan pertanyaan 2b.Saat ditarik keluar, metode ini membentuk pohon jalur percabangan.

Klasifikasi Naive Bayes bergantung pada probabilitas.Ini mengajukan serangkaian pertanyaan tentang setiap bagian data dan kemudian menggunakan jawaban untuk menentukan probabilitas bahwa data tersebut termasuk dalam klasifikasi tertentu.Ini berbeda dari pembelajaran pohon keputusan karena jawaban untuk pertanyaan pertama tidak mempengaruhi pertanyaan mana yang akan diajukan selanjutnya.

Metode yang lebih rumit dari klasifikasi penambangan data termasuk jaringan saraf dan mendukung mesin vektor.Metode-metode ini adalah model berbasis komputer yang akan sulit dilakukan dengan tangan.Jaringan saraf sering digunakan dalam pemrograman kecerdasan buatan karena meniru otak manusia.Ini menyaring informasi melalui serangkaian node yang menemukan pola dan kemudian mengklasifikasikan informasi.

Dukungan mesin vektor menggunakan sampel pelatihan untuk membangun model yang akan mengklasifikasikan informasi, biasanya divisualisasikan sebagai plot sebar dengan ruang yang luas di antara kategori.Ketika informasi baru dimasukkan ke dalam mesin, ia diplot pada grafik.Data kemudian diklasifikasikan berdasarkan kategori mana informasi terdekat dengan grafik.Metode ini hanya berfungsi ketika ada dua opsi untuk dipilih.