Skip to main content

Apa itu penambangan data statistik?

Penambangan data statistik, juga dikenal sebagai Pengetahuan atau Penemuan Data, adalah metode terkomputerisasi untuk mengumpulkan dan menganalisis informasi.Alat penambangan data mengambil data dan mengkategorikan informasi untuk menemukan pola atau korelasi yang dapat digunakan dalam aplikasi penting, seperti kedokteran, pemrograman komputer, promosi bisnis, dan desain robot.Teknik penambangan data statistik menggunakan matematika yang kompleks dan proses statistik yang rumit untuk membuat analisis.

Penambangan data melibatkan lima langkah utama.Aplikasi penambangan data pertama mengumpulkan data statistik dan menempatkan informasi dalam program tipe gudang.Selanjutnya, data di gudang diatur dan menciptakan sistem manajemen.Langkah selanjutnya menciptakan cara untuk mengakses data yang dikelola.Kemudian, langkah keempat mengembangkan perangkat lunak untuk menganalisis data, juga dikenal sebagai regresi penambangan data, sementara langkah akhir memfasilitasi menggunakan atau menafsirkan data statistik dengan cara yang praktis.

Umumnya, teknik penambangan data mengintegrasikan sistem data analitik dan transaksi.Perangkat lunak analitik mengurutkan kedua jenis sistem data menggunakan pertanyaan pengguna terbuka.Pertanyaan terbuka memungkinkan jawaban yang tak terhitung jumlahnya sehingga pemrogram tidak mempengaruhi hasil penyortiran.Pemrogram membuat daftar pertanyaan untuk membantu dalam mengkategorikan informasi menggunakan fokus keseluruhan.

Penyortiran kemudian didasarkan pada pengembangan kelas dan kelompok data, asosiasi yang ditemukan dalam data, dan upaya untuk mendefinisikan pola dan tren berdasarkan asosiasi.Misalnya, Google mengumpulkan informasi tentang kebiasaan pembelian pengguna untuk membantu menempatkan iklan online.Pertanyaan terbuka yang digunakan untuk mengurutkan data pembeli ini fokus pada preferensi pembelian atau kebiasaan melihat pengguna internet.

Ilmuwan komputer dan pemrogram fokus pada analisis data statistik yang dikumpulkan.Pembuatan pohon keputusan, jaringan saraf buatan, metode tetangga terdekat, induksi aturan, visualisasi data, dan algoritma genetika semuanya menggunakan data yang ditambang secara statistik.Sistem klasifikasi ini membantu dalam menafsirkan asosiasi yang ditemukan oleh program data analitik.Penambangan data statistik melibatkan proyek-proyek kecil yang dapat dilakukan dalam skala kecil pada komputer rumahan, tetapi sebagian besar set asosiasi penambangan data sangat besar dan regresi penambangan data sehingga rumit sehingga mereka memerlukan superkomputer atau jaringan komputer berkecepatan tinggi.

Penambangan data statistik mengumpulkan tiga jenis data umum, termasuk data operasional, data non-operasional, dan data meta.Di toko pakaian, data operasional adalah data dasar yang digunakan untuk menjalankan bisnis, seperti akuntansi, penjualan, dan kontrol inventaris.Data non-operasional, yang secara tidak langsung terkait dengan bisnis, termasuk perkiraan penjualan di masa depan dan informasi umum tentang pasar pakaian nasional.Meta data menyangkut data itu sendiri.Suatu program yang menggunakan data meta dapat mengurutkan pelanggan menyimpan klasifikasi berdasarkan jenis kelamin atau lokasi geografis pembeli pakaian atau warna favorit pelanggan, jika data itu dikumpulkan.

Aplikasi penambangan data bisa sangat canggih dan alat penambangan data statistik mungkinmemiliki aplikasi praktis yang meluas.Studi wabah penyakit adalah salah satu contoh.Proyek penambangan data 2000 menganalisis wabah penyakit cryptosporidium di Ontario, Kanada untuk menentukan penyebab peningkatan kasus penyakit.Hasil penambangan data yang dibantu dalam menghubungkan wabah bakteri dengan kondisi air lokal dan kurangnya pengolahan air kota yang tepat.Bidang yang disebut Biosurveillance menggunakan penambangan data epidemiologis untuk mengidentifikasi wabah penyakit tunggal.

Pemrogram dan desainer komputer juga menggunakan studi tentang probabilitas dan analisis data statistik untuk mengembangkan mesin dan program komputer.Mesin pencari Google Internet dirancang menggunakan MI data statistikning.Google terus mengumpulkan dan menggunakan penambangan data untuk membuat pembaruan dan aplikasi program.