Proses Data Mining
Secara
skematis, Gorunescu (2011) mambagi langkah proses pelaksanaan Data Mining dalam
tiga aktivitas yaitu :
- Eksplorasi Data, terdiri dari aktivitas pembersihan data, transformasi data, pengurangan dimensi, pemilihan cirri, dan lain-lain.
- Membuat model dan pengujian viliditas model, merupakan pemeliharaan terhadap model-model yang sudah dikembangkan yang cocok dengan kasus yang dihadapi. Dengan kata lain, dilakukan pemilihan model secara komplet.
- Penerapan model dengan data baru untuk menghasilkan perkiraan dari kasus yang ada. Tahap ini merupakan tahap yang mementukan model yang telah dibangun dapat menjawab permasalahan yang dihadapi.
Aplikasi
menggunakan data mining bermaksud menyelesaikan permasalahan dengan membangun
model berdasarkan data yang sudah digali untuk diterapkan terhadap data yang
lain. Secara umum ada dua jenis tipologi aplikasi Data Mining :
- Metode Prediksi, yang bermaksud memprediksi nilai yang akan datang berdasarkan data-data yang telah ada variabelnya seperti klasifikasi, regresi, detikasi anomaly, dan lain-lain
- Metode deskriftip, yang bermaksud membantu user agar mudah melihat pola-pola yang berasal dari data yang ada.
Klasifikasi
pertama kali diterapkan pada bidang tanaman yang mengklasifikasi suatu spesies
tertentu, seperti yang dilakukan oleh Corolus von Linne (atau dikenal dengan
nama Carolus Linnaeus) yang pertama kali mengklasifikasikan spesies berdasarkan
karakteristik fisik. Selanjutnya dia
dikenal sebagai bapak klasifikasi. Komponen-komponen utama dari proses
klasifikasi antara lain :
- Kelas, merupakan variable tidak bebas yang merupakan label hasil klasifikasi. Sebagai contoh adalah kelas loyalitas pelanggan, kelas badai atau gempa bumi, dan lain-lain.
- Predikator, merupakan variable bebas suatu model berdasarkan dari karakteristik atribut yang diklasifikasi, misalnya merokok, minum-minuman beralkohol, tekanan darah, status perkawinan, dan sebagainya.
- Set data pelatihan, merupakan sekumpulan data lengkap yang berisi kelas dan predikto untuk dilatih agar model dapat mengelompokan ke dalam kelas yang tepat. Contoh adalah group pasien yang telah di-test terhadap serangan jantung, group pelanggan disuatu supermarketdan sebagainya.
- Set data uji, berisi data-data baru yang akan dikelompokan oleh model guna mengetahui akurasi dari model yang telah dibuat.
- Set data yang digunakan untuk proses pelatihan dikenal dengan nama-nama yang berbeda antara lain : records, tuples, vector, instan, objek, dan sample.
- Tiap set data tersebut memiliki suatu atribut
- Pengkalisfikasian (classifier), merupakan model matematis yang akan menentukan suatu objek masuk dalam kelas tertentu.
- Set data testing, merupakan data-data dengan sifat seperti data pelatihan untuk menguji akurasi dari model yang telah dibuat.
Untuk menentukan suatu model baik atau buruk, kita memerlukan elemen-elemen kunci antara lain :
- Akurasi prediksi, yang menentukan seberapa akurat suatu model dalam memprediksi keluaran
- Kecepatan, yang menunjukan seberapa cepat suatu model dalam memproses data masukan.
- Robustness, mengaambarkan kemampuan suatu model melakukan prediksi yang akurat walu dalam kondisi ekstrim dan banyak gangguan yang terjadi.
- Skalabilitas,adalah kemampuan suatu model memproses data baik dalam ukuran yang lebih besar maupun data dari bidang lain yang berbeda.
- Interpretability, menggambarkan kemudahan suatu model untuk dipahami dan diiterprestasikan.
- Kesederhanaan, merupakan sifat yang cenderung dipilih untuk menyelesaikan suatu permasalahan.
Metode-metode/model-model telah dikembangkan oleh periset untuk menyelesaikan kasus klasifikasi. Metode-metode tersebut antara lain (sumathi, 2006) :
·
Pohin keputusan
·
Pengklasifikasian bayes/naïve bayes
·
Jaringan syaraf tiruan
·
Analisis statistic
·
Algoritma genetic
·
Rough sets
·
Pengklasifikasian k-nearest neighbor
·
Metode berbasis aturan
·
Memory based reasoning
·
Support vector machine
Analisis Kluster (Cluster Analysis)
Analisis
kluster (dikenal juga dengan istilah data clustering adalah metode yang
digunakan untuk membagi rangkaian data menjadi beberapa group berdasarkan
kesamaan-kesamaan yang telah ditetunkan sebelumnya. Jadi secara umum dapat
dikatakan bahwa (Gorunescu, 2011) :
·
Data dalam satu kluster memiliki tingkat
kesamaan yang tinggi, dan
·
Data dalam kluster yang berbeda memiliki
tingkat kesamaan rendah.
Karena itu perlu diketahui teknik-teknik yang digunakan untuk mengukur tingkat kesamaan, antara lain :
·
Minowski Distance (masuk dalam kelompok
ini manhattan, eulidaen, dan chebysev)
·
Tanimoto measure
·
Pearson’s measure
·
Mahalanobis measure
Contoh-contoh penerapan analisis kluster dapat dijumpai saat ini. Berikut beberapa diantaranya :
- Segmentasi pasar. Adalah pengklasteran data yang membagi pelanggan menjadi group-group tertentu yang akan mempermudah bagian penjualan (marketing) dalam memasarkan produk-produknya, seperti rumah, kendaraan, dan sebgainya.
- Pengklasteran dokumen, dokumen-dokumen yang memiliki kemiripan yang sama, misalnya politik, ekonomi, dan bidang lainya dikuumpulkan dalam satu group. Manfaat yang diperoleh adalah kemudahan dalam mencari, mengorganisasi, dan mensuplai data-data yang akan dimanfaatkan oleh pengguna pada bidang yang sesuai.
- Pengklasifikasi penyakit, penyakit tertentu dapat diidentifikasi dari gejala-gejala yang menyertainya. Oleh karena Karena itu pengklasifikasian penyakit berdasarkan gejala sangat membantu para praktisi kesehatan dalam aktivitas kesehariannya, sehingga perlakuan yang tepat dapat diterapkan untuk tiap kasus penyakit tertentu.
- Pengklasifikasian dalam biologi. Biologi sangat membutuhkan proses klasifikasi, misalnya dalam bioinformatika untuk mencari gen-gen terbaik berdasarkan kelas-kelas yang terbentuk.
0 komentar:
Posting Komentar