2017 : Teknik Resampling untuk Mengatasi Imbalanced Data Berdimensi Tinggi pada Klasifikasi Biner

Santi Wulan Purnami S.Si., M.Si
Shofi Andari S.Stat, M.Si

External link

Type

RESEARCH

Keywords

-


Abstract

Salah satu fokus studi para peneliti di penjuru dunia yang bergerak dalam bidang bioinformatika dan biostatistika saat ini yaitu bagaimana mendesain dan memperoleh model klasifikasi untuk beragam penyakit berdasarkan profil ekspresi gen. Tantangan utama dalam membangun model ini ada pada besarnya ukuran gen di dalam data yang diolah. Selain itu, distribusi kedua kelas dalam kasus klasifikasi biner yang tidak sama menjadi kesulitan tersendiri dalam membangun model klasifikasi yang akurasinya tinggi. Kedua isu ini, high-dimensional dan imbalanced data, sedemikian pentingnya sehingga telah lebih dari dua dekade metode-metode yang berkaitan untuk mengatasinya terus dikembangkan.\n Dalam studi ini, tingginya dimensi pada data microarray diatasi dengan melakukan reduksi dimensi melalui seleksi fitur atau feature selection. Metode yang digunakan untuk teknik tersebut yaitu metode recursive feature elimination (RFE) yang dijalankan di dalam algoritma klasifikasi support vector machine (SVM). Sedangkan permasalahan terkait proporsi kelas yang imbalance akan diatasi dengan melakukan teknik resampling. Secara khusus, studi ini dimaksudkan untuk mengaji metode resampling yang dapat mendukung peningkatan performansi klasifikasi biner dalam data berdimensi tinggi. \nProsedur untuk itu diaplikasikan terhadap tiga dataset benchmark. Pertama, ketiga dataset diklasifikasikan tanpa melakukan treatment apapun terhadap kondisi imbalance dengan SVM-RFE. Selanjutnya kondisi imbalanced data diatasi dengan teknik over-sampling dan under-sampling serta mengklasifikasikannya dengan SVM-RFE. Pembanding yang diusulkan dalam penelitian ini yaitu mengatasi kondisi imbalanced data dengan melakukan bootstrap sebanyak 100 sampling untuk kombinasi under-sampling dan over-sampling secara bersamaan dan mengklasifikasikannya dengan SVM-RFE. Kelima hasil klasifikasi akan dievaluasi dengan ukuran-ukuran kebaikan klasifikasi: akurasi keseluruhan, spesifsitas, sensitivitas, F-measure, G-mean, dan luasan area di bahawa kurva ROC (AUC).\n