Apa itu Correlation Clustering?

Pengelompokan korelasi dilakukan pada database dan sumber data besar lainnya untuk mengelompokkan kumpulan data yang serupa, sementara juga memperingatkan pengguna untuk kumpulan data yang berbeda. Hal ini dapat dilakukan dengan sempurna di beberapa graf, sementara yang lain akan mengalami kesalahan karena akan sulit untuk membedakan data serupa dari data yang berbeda. Dalam kasus yang terakhir, pengelompokan korelasi akan membantu mengurangi kesalahan secara otomatis. Ini sering digunakan untuk penambangan data , atau untuk mencari data yang sulit untuk kesamaan. Data yang berbeda biasanya dihapus, atau ditempatkan ke dalam cluster yang terpisah.

Data mining adalah proses mendeteksi pola dalam potongan informasi tertentu.

Ketika fungsi pengelompokan korelasi digunakan, ia mencari data berdasarkan instruksi pengguna. Pengguna akan memberi tahu program apa yang harus dicari dan, ketika ditemukan, di mana menempatkan data. Ini biasanya diterapkan pada sumber data yang sangat besar ketika tidak mungkin — atau membutuhkan waktu berjam-jam — untuk menelusuri data secara manual. Bisa ada pengelompokan sempurna atau pengelompokan tidak sempurna.

Pengelompokan sempurna adalah skenario yang ideal. Ini berarti hanya ada dua jenis data, dan satu adalah yang dicari pengguna sementara yang lain tidak dibutuhkan. Semua data positif atau yang dibutuhkan ditempatkan dalam satu cluster, sedangkan data lainnya dihapus atau dipindahkan. Dalam skenario ini, tidak ada kebingungan dan semuanya bekerja dengan sempurna.

Grafik yang paling kompleks tidak memungkinkan pengelompokan yang sempurna, dan sebaliknya, tidak sempurna. Misalnya, sebuah grafik memiliki tiga variabel: X, Y dan Z. X,Y serupa, X,Z serupa, tetapi Y,Z tidak serupa. Namun, ketiga cluster variabel sangat mirip sehingga tidak mungkin memiliki clustering korelasi yang sempurna. Program akan bekerja untuk memaksimalkan jumlah korelasi positif, tetapi ini masih memerlukan beberapa pencarian manual dari pengguna.

Dalam data mining, terutama ketika berhadapan dengan kumpulan data yang besar, korelasi clustering digunakan untuk mengelompokkan data serupa dengan data serupa. Misalnya, jika bisnis menambang data untuk situs web atau basis data besar dan hanya ingin tahu tentang aspek tertentu, perlu waktu lama untuk menelusuri semua data untuk aspek tersebut. Dengan menggunakan rumus clustering, data akan disisihkan untuk analisis yang tepat.

Informasi yang berbeda ditangani hanya berdasarkan instruksi pengguna. Pengguna dapat memilih untuk mengirim data yang berbeda ke cluster yang berbeda, karena informasi tersebut mungkin berguna untuk proyek lain. Jika data tidak diperlukan dan hanya membuang-buang memori, maka informasi yang berbeda dibuang. Dalam pengelompokan yang tidak sempurna, ada kemungkinan bahwa beberapa informasi yang berbeda tidak akan dibuang, karena sangat mirip dengan data yang dicari pengguna.

Related Posts