2019 : Prediksi Klasifikasi Imbalanced Data Mining pada Status Ketertinggalan Desa di Jawa Timur Menggunakan Kombinasi Metode Sampling dengan Metode Statistik dan Machine Learning

Santi Puteri Rahayu S.Si., M.Si., Ph.D
Dr.rer.pol. Heri Kuswanto M.Si., S.Si.

External link

Type

RESEARCH

Keywords

-


Abstract

Permasalahan kesenjangan pembangunan antar daerah di Indonesia masih perlu diperhatikan, seperti masih belum tercapainya desa tertinggal di beberapa provinsi di Indonesia dimana salah satunya berada di Jawa Timur. Penelitian ini bertujuan mengklasifikasikan desa tertinggal di Jawa Timur berdasarkan 5 kabupaten yang memiliki persentase desa tertinggal tertinggi, sehingga klasifikasi desa tertinggal dapat dilakukan dengan tepat. Banyak desa pada 5 kabupaten tersebut termasuk kategori Data Mining atau large scale data. Salah satu masalah utama dalam klasifikasi data adalah komposisi data yang tidak seimbang antar kelas (imbalanced data) yang mengakibatkan akurasi total dan akurasi kelas minor prediksi klasifikasi relatif rendah. Oleh karena itu, diperlukan prediksi ketepatan klasifikasi desa tertinggal di Jawa Timur dengan akurasi yang cukup tinggi untuk membantu merekomendasikan tambahan alternatif dasar kebijakan permasalahan ketertinggalan desa, termasuk dimungkinkan juga jika terjadi pemekaran di beberapa desa, sehingga klasifikasi desa tertinggal masih perlu selalu dilakukan secara periodik. Permasalahan tersebut diharapkan dapat diatasi dengan melakukan sampling data sehingga komposisi data antar kelas menjadi seimbang sebelum diklasifikasikan. Metode sampling yang akan digunakan yaitu SMOTE (SM), Tomek Links (TOM), Random Under Sampling (RUS), SM-TOM dan TOM-RUS. Metode Statistik (Regresi Logistik dan Regresi Logistik Ridge) dan metode Machine Learning (Analisis Diskriminan Kernel) merupakan metode klasifikasi yang akan diterapkan setelah diperoleh data seimbang, Efektivitas kombinasi metode sampling pada akurasi ketiga metode klasifikasi Data Mining tersebut akan dievaluasi dan dibandingkan dengan metode Machine Learning lainnya, yaitu Support Vector Machine, untuk mendapatkan model klasifikasi yang terbaik dalam memprediksi status ketertinggalan desa di Jawa Timur. Sehingga diharapkan model terbaik tersebut dapat sebagai tambahan alternatif dasar strategi kebijakan pemerintah terhadap desa yang berstatus tertinggal. Kata Kunci: Status daerah tertinggal, Pemekaran Desa, Prediksi Klasifikasi, Data Mining, Large Scale Data, Imbalanced, Statistik, Regresi Logistik, Machine Learning, Analisis Diskriminan Kernel, SVM