IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

2016: Seminar Informatika Aplikatif Polinema (SIAP)

Erik Hardiyanto
Faisal Rahutomo
Dwi Puspitasari

Abstract

Suatu hal yang dibutuhkan seiring dengan perkembangan teknologi informasi dan komunikasi adalah informasi.
Salah satu sumber informasi tersebut adalah Wikipedia Bahasa Indonesia. Banyaknya artikel yang masuk dalam
beberapa  kategori  menyebabkan  pembaca  kesulitan  dalam  mencari  informasi,  terutama  dalam  pencarian
berdasarkan kategori. Oleh karena itu diperlukan sebuah klasifikasi untuk artikel Wikipedia agar memiliki tepat
satu  kategori  namun  tetap  dapat  berhubungan  dengan  kategori  lainnya.  Diperlukan  sistem  yang  dapat
mengklasifikasi  artikel  Wikipedia  Indonesia  secara  otomatis.  Klasifikasi  artikel  Wikipedia  Indonesia  adalah
sebuah  sistem  yang  berfungsi  untuk  mengklasifikasi  artikel  Wikipedia  Indonesia  yang  berupa  dokumen  teks
dengan  tahapan  text  preprocessing dilanjutkan  dengan  pembobotan  TF  IDF pada  masing-masing  artikel
Wikipedia  Indonesia  terbentuk  vektor  kata.  Berdasarkan  pembobotan  tersebut,  artikel-artikel  Wikipedia
Indonesia  tersebut  diklasifikasikan  dengan  metode  K  Nearest  Neighbor.  Perhitungan  centroid  pada  masingmaing  sub  sub  kategori  terdiri  dari  tiga  buah  artikel  yang  diambil  nilai  tengahnya  kemudian  dihitung  jarak
kedekatan dengan masing-masing data uji. Berdasarkan hasil pengujian manual menunjukkan akurasi kebenaran
sebesar 60%.

References

Nugroho, Moh Aziz dan Santoso, Heru Agus, 2016.
"Klasifikasi Dokumen Komentar Pada Situs
Artikel
Waktu Eksekusi
TF
Waktu Eksekusi
TF IDF
1-100 35.29 detik 39.916 detik
101-200 36.563 detik 37.519 detik
201-300 42.431 detik 35.739 detik
301-400 35.53 detik 35.689 detik
401-500 35.618 detik 36.226 detik
501-572 29.761 detik 26.852 detik
Gambar 7. Contoh Pembahasan Pegujian
Youtube Menggunakan Algoritma K-Nearest
Neighbor (K-NN)". Jurnal Sistem Informasi
Purwanti, Endah., 2015. "Klasifikasi Dokumen
Temu Kembali Informasi dengan K-Nearest
Neghbour".e-ISSN 2442-5168. 1(2), 129-138
Samuel, Yoseph. Dkk, 2014. "Implementasi Metode
K-Nearest Neighbor dengan Decision Rule untuk
Klasifikasi Subtopik Berita". Jurnal Informatika.
10(1), 1-15
Turney, P. D. Pantel, dan Patrick. (2010). “From
Frequency to Meaning: Vector Space Models of
Semantics”. Journal of Artificial Intelegence
Reseach, 37, 141188.
Wang, Pu dan Carlotta Domeniconi, 2008. “Building
Semantic Kernels for Text Classification using
Wikipedia”. KDD ‘08 Proceedings of the 14th
ACM SIGKDD international conference on
Knowledge discovery and data mining. 713-721.