2016 : Feature Selection Berbasis Support Vector Machine untuk Aplikasi pada Data Microarray

Dr. Santi Wulan Purnami S.Si., M.Si
Shofi Andari S.Stat, M.Si

External link

Type

RESEARCH

Keywords

-


Abstract

Data microarray DNA telah menjadi standar dalam riset biologi dan biomedik. Data jenis ini banyak digunakan untuk mengumpulkan informasi dari jaringan dan sampel sel terkait dengan perbedaan-perbedaan ekspresi gen yang dapat dimanfaatkan untuk diagnosis penyakit atau untuk membedakan jenis tumor tertentu. Sampai saat ini, melakukan analisis klasifikasi pada data microarray masih menjadi tantangan berat bagi peneliti yang bergelut dengan machine learning disebabkan fitur (feature) yang jumlahnya sangat besar dan sampel yang terlalu sedikit. Struktur data ini demikian adanya dikarenakan ekspresi gen yang diukur merupakan ekspresi gen secara keseluruhan (en masse). Permasalahan klasifikasi yang umum diselesaikan yaitu untuk memisahkan pasien yang sehat dari pasien yang menderita penyakit tertentu, misal: kanker, berdasarkan profil ekspresi (pendekatan biner). Ada juga dataset yang ditujukan untuk membedakan di antara jenis-jenis tumor yang berbeda (pendekatan multikelas), dalam hal ini analisis akan sedikit lebih rumit.\nSeleksi gen atau seleksi feature memiliki peran yang sangat penting dalam analisis microarray DNA, yakni sebagai proses mengidentifikasi dan menghilangkan feature-feature yang tidak relevan dari data training, sehingga algoritma klasifikasi hanya berfokus pada aspek-aspek data training yang memang berguna dalam analisis atau prediksi. Selain itu, feature selection juga dilakukan untuk membantu para biologis mengidentifikasi mekanisme ekspresi gen berkaitan dengan suatu penyakit. Oleh karenanya, dalam beberapa tahun terakhir studi mengenai feature selection berkembang sangat pesat dan semakin banyak algoritma baru yang diusulkan. Ide mendasar dari feature selection yaitu dengan mencati proyeksi data sehingga menghasilkan feature (atau variabel) yang lebih sedikit. Umumnya terdapat tiga macam metode feature selection: metode filters, wrappers, dan embedded. Dengan semakin kompleksnya ukuran data dan semakin banyaknya alternatif algoritma feature selection perlu terus dilakukan evaluasi terhadap pendekatan-pendekatan metode feature selection agar memberikan performa klasifikasi atau prediksi model yang handal.\nStudi ini dimaksudkan untuk mengujicobakan metode embedded dalam feature selection berdasarkan model klasifikasi. Support vector machine (SVM) merupakan salah satu metode embedded feature selection yang paling populer digunakan karena dalam berbagai studi telah ditunjukkan bahwa feature selection berbasis classifier ini menghasilkan akurasi yang baik. Pada penelitian ini, SVM akan dimanfaatkan untuk feature selection sekaligus untuk membangun model klasifikasi biner. Dua metode pendekatan SVM yang digunakan dalam penelitian ini yaitu recursive feature elimination SVM (RFE-SVM) dan backward feature eliminiation (BFE-SVM) yang akan diujicobakan pada data microarray benchmark pada beragam ukuran dimensi.