2020 : Pembangkitan Data Spam untuk Review Produk berdasarkan Fitur Urutan dan Makna Kata dengan Arsitektur Deep Learning

Dr.Eng. Chastine Fatichah S.Kom, M.Kom
Dr. Diana Purwitasari , S.Kom., M.Sc
Dini Adni Navastara S.Kom., M.Sc.
Shintami Chusnul Hidayati S.Kom., M.Sc., Ph.D


Abstract

Review produk online menjadi sumber informasi penting dalam pembelian sebuah layanan maupun produk. Namun terdapat masalah dalam review online yaitu adanya oknum yang melakukan review palsu (spam) untuk meningkatkan peringkat suatu produk, sehingga sistem deteksi review perlu dilakukan. Review palsu juga berupa iklan produk lain, pertanyaan atau pernyataan tidak relevan dengan produk yang ditampilkan. Banyak penelitian terkait deteksi atau klasifikasi spam pada review produk online. Salah satu tantangan dalam deteksi spam adalah keterbatasan jumlah data review palsu karena pengumpulan data secara manual untuk pembelajaran sistem membutuhkan banyak waktu dan tenaga. Koleksi data review yang tersedia pada umumnya tidak memiliki label sehingga hasil pembelajaran sistem memberikan akurasi rendah. Hal tersebut dapat disebabkan oleh terbatasnya teks pada review produk yang biasanya terdiri dari 1-3 kalimat. Pembangkitan kata menjadi kalimat yang membentuk teks seperti review produk memperhitungkan urutan kemunculan kata untuk menghasilkan kalimat logis. Hubungan antar kata menjadi kalimat dan kemudian teks review tersebut dimodelkan dalam suatu jaringan saraf. Hal yang harus diperhitungkan antara lain distribusi kalimat pada koleksi teks sebagai data belajar, sehingga kalimat sintetis yang dihasilkan mempertahankan fitur sintatik (urutan) dan semantik (makna) kalimat asli. Oleh karena itu pembangkitan data review palsu dengan memperhitungkan fitur kalimat yang diusulkan dalam penelitian ini dapat menjadi salah satu alternatif solusi sumber data.