Pengelompokan Hirarki vs Partisi
Clustering adalah teknik pembelajaran mesin untuk menganalisis data dan membaginya ke dalam kelompok-kelompok data yang serupa. Kelompok atau kumpulan data serupa ini dikenal sebagai cluster. Analisis cluster melihat algoritma clustering yang dapat mengidentifikasi cluster secara otomatis. Hirarki dan Partisi adalah dua kelas seperti algoritma pengelompokan. Algoritma pengelompokan hierarkis memecah data menjadi hierarki cluster. Algoritme partisi membagi kumpulan data menjadi partisi yang saling terpisah.
Apa itu Pengelompokan Hirarki?
Algoritma pengelompokan hierarkis mengulangi siklus menggabungkan klaster yang lebih kecil ke yang lebih besar atau membagi klaster yang lebih besar ke yang lebih kecil. Either way, itu menghasilkan hierarki cluster yang disebut dendogram. Strategi pengelompokan aglomeratif menggunakan pendekatan bottom-up untuk menggabungkan cluster ke yang lebih besar, sementara strategi pengelompokan divisi menggunakan pendekatan top-down untuk memecah menjadi yang lebih kecil. Biasanya, pendekatan serakah digunakan dalam memutuskan cluster mana yang lebih besar/lebih kecil yang digunakan untuk menggabungkan/membagi. Jarak Euclidean, jarak Manhattan dan kesamaan kosinus adalah beberapa metrik kesamaan yang paling umum digunakan untuk data numerik. Untuk data non-numerik, metrik seperti jarak Hamming digunakan. Penting untuk dicatat bahwa pengamatan aktual (contoh) tidak diperlukan untuk pengelompokan hierarkis, karena hanya matriks jarak yang cukup. Dendogram adalah representasi visual dari cluster, yang menampilkan hierarki dengan sangat jelas. Pengguna dapat memperoleh pengelompokan yang berbeda tergantung pada tingkat pemotongan dendogram.
Apa itu Partitional Clustering?
Algoritma pengelompokan partisi menghasilkan berbagai partisi dan kemudian mengevaluasinya dengan beberapa kriteria. Mereka juga disebut sebagai nonhierarchical karena setiap instance ditempatkan tepat di salah satu dari k cluster yang saling eksklusif. Karena hanya satu set klaster yang merupakan keluaran dari algoritma klaster partisi yang khas, pengguna diharuskan memasukkan jumlah klaster yang diinginkan (biasanya disebut k). Salah satu algoritma clustering partisi yang paling umum digunakan adalah algoritma clustering k-means. Pengguna diharuskan untuk memberikan jumlah cluster (k) sebelum memulai dan algoritma terlebih dahulu memulai pusat (atau centroid) dari k partisi. Singkatnya, algoritma pengelompokan k-means kemudian menetapkan anggota berdasarkan pusat saat ini dan memperkirakan kembali pusat berdasarkan anggota saat ini. Kedua langkah ini diulang sampai fungsi tujuan kesamaan intra-cluster tertentu dan fungsi tujuan perbedaan antar-cluster dioptimalkan. Oleh karena itu, inisialisasi pusat yang masuk akal merupakan faktor yang sangat penting dalam memperoleh hasil berkualitas dari algoritma pengelompokan partisi.
Apa perbedaan antara Pengelompokan Hirarki dan Partisial?
Clustering Hierarki dan Partisi memiliki perbedaan utama dalam waktu berjalan, asumsi, parameter input, dan cluster yang dihasilkan. Biasanya, pengelompokan partisi lebih cepat daripada pengelompokan hierarkis. Pengelompokan hierarki hanya membutuhkan ukuran kesamaan, sedangkan pengelompokan partisi membutuhkan asumsi yang lebih kuat seperti jumlah cluster dan pusat awal. Pengelompokan hierarkis tidak memerlukan parameter input apa pun, sementara algoritma pengelompokan partisi memerlukan jumlah cluster untuk mulai berjalan. Pengelompokan hierarki mengembalikan pembagian cluster yang jauh lebih bermakna dan subjektif tetapi pengelompokan partisi menghasilkan tepat k cluster. Algoritme pengelompokan hierarkis lebih cocok untuk data kategorikal selama ukuran kesamaan dapat ditentukan dengan tepat.