Evaluasi Kmeans Clustering Pada Preprocessing Sistem Temu Kembali Informasi

2020: Seminar Informatika Aplikatif Polinema (SIAP) - 2020

Yudha Pradana Putra
Yoppy Yunhasnawa
Faisal Rahutomo

Abstract

Pada masa sekarang, berita masih menjadi salah satu konsumsi masyarakat pada dunia maya. Namun dengan seiring waktu jumlah berita yang diterbitkan semakin banyak. Hal ini dapat teratasi dengan dipergunakannya sistem temu kembali informasi yang dapat mencari berita dengan cepat. Sistem temu kembali informasi yang ada masih dikaji efisiensinya, jika berhubungan dengan jumlah berita yang sangat besar. Pada penelitian ini melakukan pengujian efisiensi dengan menambahkan proses clustering pada sistem temu kembali informasi. Selain itu juga dilakukan perbandingan hasil pengujian dengan metode clustering yang pernah digunakan pada penelitian sebelumnya. Pada preprocessing ini mengimplementasikan metode kmeans clustering dan pembobotan kata yang digunakan adalah tfidf dan doc2vec. Kemudian pencocokan query dengan dokumen disederhanakan menjadi pencocokan vektor query dengan vektor centroid cluster. Hasil pengujian efisiensi menunjukkan sistem temu kembali informasi yang menggunakan metode kmeans clustering dapat mencari berita lebih cepat. Sedangkan pengujian precission, recall dan fscore menunjukkan jika proses pencarian sistem temu kembali informasi menggunakan pembobotan kata tfidf, paling baik dilakukan pada query 4g lte pada threshold 0.05 pada jumlah klaster 750 dengan nilai fscore 0,818.