2017 : KAJIAN ALGORITMA SHARED NEAREST NEIGHBOUR PADA PENGKLASTERAN DOKUMEN

Drs. Daryono Budi Utomo
Alvida Mustika Rukmi S.Si, M.Si

External link

Type

RESEARCH

Keywords

-


Abstract

Pengklasteran dokumen adalah salah satu upaya dalam pengelolaan dokumen secara otomatis, ekstraksi topik dan pengambilan atau penyaringan informasi yang cepat. Metode pengklasteran dapat digunakan untuk secara otomatis mengelompokkan dokumen diambil ke dalam daftar kategori bermakna. Data dokumen diolah dengan text mining yang menggunakan Rapid Automatic Keyphrase Extraction (RAKE) sebagai ekstraksi kata kunci dan Latent Semantic Analysis (LSA) untuk menjadikan dokumen sebagai vektor. Selanjutnya, dilakukan proses pengklasteran agar dokumen-dokumen dengan kemiripan topik akan berada dalam klaster yang sama.\nPada Algoritma Shared Nearest Neighbour (SNN) kemiripan di antara dua objek didasarkan pada banyaknya “tetangga” yang sama, sebagai salah satu parameter pada Algoritma SNN selain jumlah tetangga dekat dan ambang batas jumlah titik inti. Dokumen-dokumen akan berada dalam sebuah klaster jika melebihi nilai ambang batas (threshold) pada setiap parameter.\nPenelitian ini akan mengkaji peran parameter-parameter pada Algoritma SNN dalam menghasilkan performa yang akan dibandingkan pengklasteran dokumen dengan metoda partisi atau agglomeratif. Karakteristik Algoritma SNN didasarkan pada sifat ’ketetanggaan’ berdasarkan pengukuran jarak kemiripan antar dokumen. Sedangkan representasi graf berdasarkan Similarity Graph (graf ketetanggan) yang terbentuk, menyuguhkan informasi berupa relasi antar dokumen. Relasi antar dokumen diperlukan agar mengetahui dokumen-dokumen yang saling berkaitan.