KDD vs Penambangan data
KDD (Knowledge Discovery in Databases) adalah bidang ilmu komputer, yang mencakup alat dan teori untuk membantu manusia dalam mengekstraksi informasi yang berguna dan yang sebelumnya tidak diketahui (yaitu pengetahuan) dari kumpulan besar data digital. KDD terdiri dari beberapa langkah, dan Data Mining adalah salah satunya. Data Mining adalah penerapan algoritma tertentu untuk mengekstrak pola dari data. Meskipun demikian, KDD dan Data Mining digunakan secara bergantian.
Apa KDD?
Seperti disebutkan di atas, KDD adalah bidang ilmu komputer, yang berhubungan dengan ekstraksi informasi yang sebelumnya tidak diketahui dan menarik dari data mentah. KDD adalah keseluruhan proses mencoba memahami data dengan mengembangkan metode atau teknik yang sesuai. Proses ini berkaitan dengan pemetaan data tingkat rendah ke dalam bentuk lain yang lebih kompak, abstrak dan bermanfaat. Ini dicapai dengan membuat laporan singkat, memodelkan proses menghasilkan data dan mengembangkan model prediktif yang dapat memprediksi kasus masa depan. Karena pertumbuhan data yang eksponensial, terutama di bidang-bidang seperti bisnis, KDD telah menjadi proses yang sangat penting untuk mengubah kekayaan data yang besar ini menjadi kecerdasan bisnis, karena ekstraksi pola secara manual menjadi tidak mungkin dilakukan dalam beberapa dekade terakhir. Sebagai contoh,saat ini telah digunakan untuk berbagai aplikasi seperti analisis jaringan sosial, deteksi penipuan, sains, investasi, manufaktur, telekomunikasi, pembersihan data, olahraga, pencarian informasi, dan sebagian besar untuk pemasaran. KDD biasanya digunakan untuk menjawab pertanyaan seperti apa produk utama yang mungkin bisa membantu memperoleh keuntungan tinggi tahun depan di Wal-Mart ?. Proses ini memiliki beberapa langkah. Ini dimulai dengan mengembangkan pemahaman tentang domain aplikasi dan tujuan dan kemudian membuat kumpulan data target. Ini diikuti dengan pembersihan, preprocessing, reduksi dan proyeksi data. Langkah selanjutnya adalah menggunakan Data Mining (dijelaskan di bawah) untuk mengidentifikasi pola. Akhirnya, pengetahuan yang ditemukan dikonsolidasikan dengan memvisualisasikan dan / atau menafsirkan.olahraga, pencarian informasi dan sebagian besar untuk pemasaran. KDD biasanya digunakan untuk menjawab pertanyaan seperti apa produk utama yang mungkin dapat membantu memperoleh keuntungan tinggi tahun depan di Wal-Mart ?. Proses ini memiliki beberapa langkah. Ini dimulai dengan mengembangkan pemahaman tentang domain aplikasi dan tujuan dan kemudian membuat kumpulan data target. Ini diikuti dengan pembersihan, preprocessing, reduksi dan proyeksi data. Langkah selanjutnya adalah menggunakan Data Mining (dijelaskan di bawah) untuk mengidentifikasi pola. Akhirnya, pengetahuan yang ditemukan dikonsolidasikan dengan memvisualisasikan dan / atau menafsirkan.olahraga, pencarian informasi dan sebagian besar untuk pemasaran. KDD biasanya digunakan untuk menjawab pertanyaan seperti apa produk utama yang mungkin dapat membantu memperoleh keuntungan tinggi tahun depan di Wal-Mart ?. Proses ini memiliki beberapa langkah. Ini dimulai dengan mengembangkan pemahaman tentang domain aplikasi dan tujuan dan kemudian membuat kumpulan data target. Ini diikuti dengan pembersihan, preprocessing, reduksi dan proyeksi data. Langkah selanjutnya adalah menggunakan Data Mining (dijelaskan di bawah) untuk mengidentifikasi pola. Akhirnya, pengetahuan yang ditemukan dikonsolidasikan dengan memvisualisasikan dan / atau menafsirkan. Ini dimulai dengan mengembangkan pemahaman tentang domain aplikasi dan tujuan dan kemudian membuat kumpulan data target. Ini diikuti dengan pembersihan, preprocessing, reduksi dan proyeksi data. Langkah selanjutnya adalah menggunakan Data Mining (dijelaskan di bawah) untuk mengidentifikasi pola. Akhirnya, pengetahuan yang ditemukan dikonsolidasikan dengan memvisualisasikan dan / atau menafsirkan. Ini dimulai dengan mengembangkan pemahaman tentang domain aplikasi dan tujuan dan kemudian membuat kumpulan data target. Ini diikuti dengan pembersihan, preprocessing, reduksi dan proyeksi data. Langkah selanjutnya adalah menggunakan Data Mining (dijelaskan di bawah) untuk mengidentifikasi pola. Akhirnya, pengetahuan yang ditemukan dikonsolidasikan dengan memvisualisasikan dan / atau menafsirkan.
Apa itu Data Mining?
Seperti disebutkan di atas, Data Mining hanyalah satu langkah dalam proses KDD secara keseluruhan. Ada dua tujuan Data Mining utama yang didefinisikan oleh tujuan aplikasi, dan itu adalah verifikasi atau penemuan. Verifikasi adalah memverifikasi hipotesis pengguna tentang data, sementara penemuan secara otomatis menemukan pola yang menarik. Ada empat tugas utama data mining: pengelompokan, klasifikasi, regresi, dan asosiasi (peringkasan). Clustering mengidentifikasi kelompok serupa dari data tidak terstruktur. Klasifikasi adalah aturan pembelajaran yang dapat diterapkan pada data baru. Regresi adalah menemukan fungsi dengan kesalahan minimal pada data model. Dan asosiasi mencari hubungan antar variabel. Kemudian, algoritme penambangan data spesifik perlu dipilih. Bergantung pada tujuannya, berbagai algoritme seperti regresi linier, regresi logistik,pohon keputusan dan Naïve Bayes dapat dipilih. Kemudian pola minat dalam satu atau lebih bentuk representasi dicari. Terakhir, model dievaluasi baik menggunakan akurasi prediksi atau pemahaman.
Apa perbedaan antara KDD dan Data mining?
Meskipun, dua istilah KDD dan Data Mining banyak digunakan secara bergantian, keduanya merujuk pada dua konsep terkait namun sedikit berbeda. KDD adalah keseluruhan proses mengekstraksi pengetahuan dari data sedangkan Data Mining adalah langkah di dalam proses KDD, yang berkaitan dengan mengidentifikasi pola dalam data. Dengan kata lain, Data Mining hanyalah penerapan algoritme tertentu berdasarkan tujuan keseluruhan dari proses KDD.