Sabtu, 12 Oktober 2013

(03) Data Mining

Filled under:


Proses Data Mining

Secara skematis, Gorunescu (2011) mambagi langkah proses pelaksanaan Data Mining dalam tiga aktivitas yaitu :

  • Eksplorasi Data, terdiri dari aktivitas pembersihan data, transformasi data, pengurangan dimensi, pemilihan cirri, dan lain-lain.
  • Membuat model dan pengujian viliditas model, merupakan pemeliharaan terhadap model-model yang sudah dikembangkan yang cocok dengan kasus yang dihadapi. Dengan kata lain, dilakukan pemilihan model secara komplet.
  • Penerapan model dengan data baru untuk menghasilkan perkiraan dari kasus yang ada. Tahap ini merupakan tahap yang mementukan model yang telah dibangun dapat menjawab permasalahan yang dihadapi.
Jenis Permasalahan data mining
Aplikasi menggunakan data mining bermaksud menyelesaikan permasalahan dengan membangun model berdasarkan data yang sudah digali untuk diterapkan terhadap data yang lain. Secara umum ada dua jenis tipologi aplikasi Data Mining :

  • Metode Prediksi, yang bermaksud memprediksi nilai yang akan datang berdasarkan data-data yang telah ada variabelnya seperti klasifikasi, regresi, detikasi anomaly, dan lain-lain
  • Metode deskriftip, yang bermaksud membantu user agar mudah melihat pola-pola yang berasal dari data yang ada.
Klasifikasi
Klasifikasi pertama kali diterapkan pada bidang tanaman yang mengklasifikasi suatu spesies tertentu, seperti yang dilakukan oleh Corolus von Linne (atau dikenal dengan nama Carolus Linnaeus) yang pertama kali mengklasifikasikan spesies berdasarkan karakteristik fisik. Selanjutnya dia  dikenal sebagai bapak klasifikasi. Komponen-komponen utama dari proses klasifikasi antara lain :

  • Kelas, merupakan variable tidak bebas yang merupakan label hasil klasifikasi. Sebagai contoh adalah kelas loyalitas pelanggan, kelas badai atau gempa bumi, dan lain-lain.
  • Predikator, merupakan variable bebas suatu model berdasarkan dari karakteristik atribut yang diklasifikasi, misalnya merokok, minum-minuman beralkohol, tekanan darah, status perkawinan, dan sebagainya.
  • Set data  pelatihan, merupakan sekumpulan data lengkap yang berisi kelas dan predikto untuk dilatih agar model dapat mengelompokan ke dalam kelas yang tepat. Contoh adalah group pasien yang telah di-test terhadap serangan jantung, group pelanggan disuatu supermarketdan sebagainya.
  • Set data uji, berisi data-data baru yang akan dikelompokan oleh model guna mengetahui akurasi dari model yang telah dibuat.
Sebagian besar istila-istilah yang ada dalam aktivitas klasifikasisma dengan yang digunakan dalam aplikasi data base. Namun beberapa mungkin tidak begitu dikenal, istilah-istilah tersebut antara lain:
  • Set data yang digunakan untuk proses pelatihan dikenal dengan nama-nama yang berbeda antara lain : records, tuples, vector, instan, objek, dan sample.
  • Tiap set data tersebut memiliki suatu atribut
  • Pengkalisfikasian  (classifier), merupakan model matematis yang akan menentukan suatu objek masuk dalam kelas tertentu.
  • Set data testing, merupakan data-data dengan sifat seperti data pelatihan untuk menguji akurasi dari model yang telah dibuat.
Dalam mesin pembelajaran (machine learning) kita mengenal istilah pembelajaran terpandu (supervised learning) dan pembelajaran tak terpandu (unsupervised learning). Istilah ini sama dengan istilah yang telah didefinisikan sebelumya. Pembeljaran terpandu memiliki kesamaan dengan metode prediksi yang memprediksi keluaran dari masukan tertentu. Sedangkan pembelajaran tak terpandu identik dengan metode deskriptif yang mengelompokan dalam pola-pola tertentu.

Untuk menentukan suatu model baik atau buruk, kita memerlukan elemen-elemen kunci antara lain :

  • Akurasi prediksi, yang menentukan seberapa akurat suatu model dalam memprediksi keluaran
  • Kecepatan, yang menunjukan seberapa cepat suatu model dalam memproses data masukan.
  • Robustness, mengaambarkan kemampuan suatu model melakukan prediksi yang akurat walu dalam kondisi ekstrim dan banyak gangguan yang terjadi.
  • Skalabilitas,adalah kemampuan suatu model memproses data baik dalam ukuran yang lebih besar maupun data dari bidang lain yang berbeda.
  • Interpretability, menggambarkan kemudahan suatu model untuk dipahami dan diiterprestasikan.
  • Kesederhanaan, merupakan sifat yang cenderung dipilih untuk menyelesaikan suatu permasalahan.

Metode-metode/model-model telah dikembangkan oleh periset untuk menyelesaikan kasus klasifikasi. Metode-metode tersebut antara lain (sumathi, 2006) :
·         Pohin keputusan
·         Pengklasifikasian bayes/naïve bayes
·         Jaringan syaraf tiruan
·         Analisis statistic
·         Algoritma genetic
·         Rough sets
·         Pengklasifikasian k-nearest neighbor
·         Metode berbasis aturan
·         Memory based reasoning
·         Support vector machine


Analisis Kluster (Cluster Analysis)
Analisis kluster (dikenal juga dengan istilah data clustering adalah metode yang digunakan untuk membagi rangkaian data menjadi beberapa group berdasarkan kesamaan-kesamaan yang telah ditetunkan sebelumnya. Jadi secara umum dapat dikatakan bahwa (Gorunescu, 2011) :
·         Data dalam satu kluster memiliki tingkat kesamaan yang tinggi, dan
·         Data dalam kluster yang berbeda memiliki tingkat kesamaan rendah.

Karena itu perlu diketahui teknik-teknik yang digunakan untuk mengukur tingkat kesamaan, antara lain :
·         Minowski Distance (masuk dalam kelompok ini manhattan, eulidaen, dan chebysev)
·         Tanimoto measure
·         Pearson’s measure
·         Mahalanobis measure

Contoh-contoh penerapan analisis kluster dapat dijumpai saat ini. Berikut beberapa diantaranya :
  • Segmentasi pasar. Adalah pengklasteran data yang membagi pelanggan menjadi group-group tertentu yang akan mempermudah bagian penjualan (marketing) dalam memasarkan produk-produknya, seperti rumah, kendaraan, dan sebgainya.
  • Pengklasteran dokumen, dokumen-dokumen yang memiliki kemiripan yang sama, misalnya politik, ekonomi, dan bidang lainya dikuumpulkan dalam satu group. Manfaat yang diperoleh adalah kemudahan dalam mencari, mengorganisasi, dan mensuplai data-data yang akan dimanfaatkan oleh pengguna pada bidang yang sesuai.
  • Pengklasifikasi penyakit, penyakit tertentu dapat diidentifikasi dari gejala-gejala yang menyertainya. Oleh karena Karena itu pengklasifikasian penyakit berdasarkan gejala sangat membantu para praktisi kesehatan dalam aktivitas kesehariannya, sehingga perlakuan yang tepat dapat diterapkan untuk tiap kasus penyakit tertentu.
  • Pengklasifikasian dalam biologi. Biologi sangat membutuhkan proses klasifikasi, misalnya dalam bioinformatika untuk mencari gen-gen terbaik berdasarkan kelas-kelas yang terbentuk.


0 komentar:

Posting Komentar