2020 : Deep Learning pada Pembangkitan Data Spam untuk Review Produk dengan Perluasan Representasi Vektor Kata Berbasis Topik

Dr. Diana Purwitasari , S.Kom., M.Sc

Year

2020

Published in

-

External link

Type

RESEARCH

Keywords

-


Abstract

Review produk online dapat menjadi sumber informasi sebelum melakukan pembelian. Namun pada teks review sering ditemui adanya review palsu untuk meningkatkan atau menjatuhkan peringkat produk tertentu. Tidak hanya review palsu (spam tipe 1), komentar yang fokus ke pembuat produk atau brand (spam tipe 2), pengiklanan produk lain, pertanyaan atau pernyataan yang tidak relevan dengan produk (spam tipe 3) kerap muncul. Semua jenis teks tersebut masuk dalam kategori spam, sehingga sistem deteksi review spam perlu dilakukan. Salah satu masalah pada deteksi spam adalah keterbatasan data review yang berlabel (spam atau tidak spam). Korpus review yang ada lebih banyak memiliki label spam dengan tipe review palsu (spam tipe 1). Jumlah data masih kurang untuk teks spam yang berlabel komentar pada brand (spam tipe 2) dan non review (spam tipe 3). Dataset berlabel spam yang terbatas dan tidak seimbang menyebabkan model deteksi spam mengalami masalah overfitting. Penambahan data dapat dilakukan melalui pelabelan secara manual pada review produk, namun kegiatan itu memakan waktu dan cenderung subjektif. Model pembangkitan data dapat digunakan sebagai solusi keterbatasan data. Metode pembangkitan teks menghasilkan data teks baru yang memperhitungkan urutan (sequence) dan makna. Metode pembangkitan berbasis jaringan syaraf tersebut membutuhkan banyak representasi vektor kata sebagai data belajar. Peningkatan jumlah data belajar tidak memberikan hasil yang baik jika korpus kata tambahan tidak relevan. Oleh karena itu, pada penelitian ini diusulkan model pembangkitan teks dengan perluasan representasi vektor kata berbasis topik spam produk pada dataset spam review yang terbatas. Perluasan tidak dilakukan secara langsung atau acak melainkan dengan seleksi berdasarkan topik sequences agar data tambahan memiliki informasi relevan dengan data awal.