KDD vs Penambangan data
KDD (Knowledge Discovery in Databases) adalah bidang ilmu komputer, yang mencakup alat dan teori untuk membantu manusia dalam mengekstraksi informasi yang berguna dan sebelumnya tidak diketahui (yaitu pengetahuan) dari kumpulan besar data digital. KDD terdiri dari beberapa langkah, dan Data Mining adalah salah satunya. Data Mining adalah aplikasi dari algoritma tertentu untuk mengekstrak pola dari data. Meskipun demikian, KDD dan Data Mining digunakan secara bergantian.
Apa itu KDD?
Seperti disebutkan di atas, KDD adalah bidang ilmu komputer, yang berhubungan dengan ekstraksi informasi yang sebelumnya tidak diketahui dan menarik dari data mentah. KDD adalah keseluruhan proses mencoba memahami data dengan mengembangkan metode atau teknik yang tepat. Proses ini berkaitan dengan pemetaan data tingkat rendah ke dalam bentuk lain yang lebih kompak, abstrak dan berguna. Ini dicapai dengan membuat laporan singkat, memodelkan proses menghasilkan data dan mengembangkan model prediktif yang dapat memprediksi kasus di masa depan. Karena pertumbuhan data yang eksponensial, terutama di bidang-bidang seperti bisnis, KDD telah menjadi proses yang sangat penting untuk mengubah kekayaan data yang besar ini menjadi intelijen bisnis, karena ekstraksi pola secara manual tampaknya tidak mungkin dilakukan dalam beberapa dekade terakhir. Misalnya, saat ini telah digunakan untuk berbagai aplikasi seperti analisis jaringan sosial, deteksi penipuan, ilmu pengetahuan, investasi, manufaktur, telekomunikasi, pembersihan data, olahraga, pencarian informasi dan sebagian besar untuk pemasaran. KDD biasanya digunakan untuk menjawab pertanyaan seperti apa produk utama yang dapat membantu untuk memperoleh keuntungan tinggi tahun depan di Wal-Mart?. Proses ini memiliki beberapa langkah. Dimulai dengan mengembangkan pemahaman tentang domain aplikasi dan tujuannya, lalu membuat kumpulan data target. Ini diikuti dengan pembersihan, preprocessing, reduksi dan proyeksi data. Langkah selanjutnya adalah menggunakan Data Mining (dijelaskan di bawah) untuk mengidentifikasi pola. Akhirnya, pengetahuan yang ditemukan dikonsolidasikan dengan memvisualisasikan dan/atau menafsirkan.
Apa itu Data Mining?
Seperti disebutkan di atas, Data Mining hanyalah sebuah langkah dalam proses KDD secara keseluruhan. Ada dua tujuan utama Data Mining seperti yang didefinisikan oleh tujuan aplikasi, yaitu verifikasi atau penemuan. Verifikasi adalah memverifikasi hipotesis pengguna tentang data, sedangkan penemuan secara otomatis menemukan pola yang menarik. Ada empat tugas utama data mining: pengelompokan, klasifikasi, regresi, dan asosiasi (peringkasan). Clustering adalah mengidentifikasi kelompok serupa dari data yang tidak terstruktur. Klasifikasi adalah aturan pembelajaran yang dapat diterapkan pada data baru. Regresi adalah menemukan fungsi dengan kesalahan minimal untuk memodelkan data. Dan asosiasi adalah mencari hubungan antar variabel. Kemudian, algoritma penambangan data tertentu perlu dipilih. Tergantung pada tujuannya, algoritma yang berbeda seperti regresi linier, regresi logistik, pohon keputusan dan Naïve Bayes dapat dipilih. Kemudian dicari pola minat dalam satu atau lebih bentuk representasional. Akhirnya, model dievaluasi baik menggunakan akurasi prediksi atau pemahaman.
Apa perbedaan antara KDD dan Data mining?
Meskipun, kedua istilah KDD dan Data Mining sering digunakan secara bergantian, mereka merujuk pada dua konsep yang terkait namun sedikit berbeda. KDD adalah keseluruhan proses penggalian pengetahuan dari data sementara Data Mining adalah langkah di dalam proses KDD, yang berhubungan dengan mengidentifikasi pola dalam data. Dengan kata lain, Data Mining hanyalah aplikasi dari algoritma tertentu berdasarkan tujuan keseluruhan dari proses KDD.