Clustering adalah proses mengelompokkan objek berdasarkan informasi
yang diperoleh dari data yang menjelaskan hubungan antar objek dengan
prinsip untuk memaksimalkan kesamaan antar anggota satu kelas dan
meminimumkan kesamaan antar kelas/cluster. Tujuannya menemukan cluster
yang berkualitas dalam waktu yang layak. Clustering dalam data mining
berguna untuk menemukan pola distribusi di dalam sebuah data set yang
berguna untuk proses analisa data. Kesamaan objek biasanya diperoleh
dari kedekatan nilai-nilai atribut yang menjelaskan objek-objek data,
sedangkan objek-objek data biasanya direpresentasikan sebagai sebuah
titik dalam ruang multidimensi.
Dengan menggunakan clustering, dapat diidentifikasi daerah yang
padat, pola-pola distribusi secara keseluruhan dan keterkaitan yang
menarik antara atribut-atribut data. Dalam data mining usaha difokuskan
pada metode-metode penemuan untuk cluster pada basisdata berukuran
besar secara efektif dan efisien. Banyaknya pendekatan clustering
menyulitkan dalam menentukan ukuran kualitas yang universal. Namun,
beberapa hal yang perlu diperhatikan adalah input parameter yang tidak
menyulitkan user, cluster hasil yang dapat dianalisa, dan skalabilitas
terhadap penambahan ukuran dimensi dan record dataset. Secara garis
besar ada beberapa kategori algoritma clustering yang dikenal yaitu:
a. Metode Partisi, dimana pemakai harus menentukan jumlah k partisi
yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu
partisi sehingga tidak ada data yang overlap dan satu data hanya
memiliki satu cluster. Contohnya: algoritma K-Means.
b. Metode Hierarki, yang menghasilkan cluster yang bersarang artinya
suatu data dapat memiliki cluster lebih dari satu. Metode ini terbagi
menjadi dua yaitu buttom-up yang menggabungkan cluster kecil menjadi
cluster lebih besar dan top-down yang memecah cluster besar menjadi
cluster yang lebih kecil. Kelemahan metode ini adalah bila salah satu
penggabungan/pemecahan dilakukan pada tempat yang salah, tidak akan
didapatkan cluster yang optimal. Contohnya: Agglomerative (FINDIT,
PROCLUS), Divisive Hierarchical Clustering (CLIQUE, MAFIA, ENCLUE).
Sumber: Buku Konsep Data Mining
Tidak ada komentar:
Posting Komentar