IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
2016: Seminar Informatika Aplikatif Polinema (SIAP)
Abstract
Suatu hal yang dibutuhkan seiring dengan perkembangan teknologi informasi dan komunikasi adalah informasi.
Salah satu sumber informasi tersebut adalah Wikipedia Bahasa Indonesia. Banyaknya artikel yang masuk dalam
beberapa kategori menyebabkan pembaca kesulitan dalam mencari informasi, terutama dalam pencarian
berdasarkan kategori. Oleh karena itu diperlukan sebuah klasifikasi untuk artikel Wikipedia agar memiliki tepat
satu kategori namun tetap dapat berhubungan dengan kategori lainnya. Diperlukan sistem yang dapat
mengklasifikasi artikel Wikipedia Indonesia secara otomatis. Klasifikasi artikel Wikipedia Indonesia adalah
sebuah sistem yang berfungsi untuk mengklasifikasi artikel Wikipedia Indonesia yang berupa dokumen teks
dengan tahapan text preprocessing dilanjutkan dengan pembobotan TF IDF pada masing-masing artikel
Wikipedia Indonesia terbentuk vektor kata. Berdasarkan pembobotan tersebut, artikel-artikel Wikipedia
Indonesia tersebut diklasifikasikan dengan metode K Nearest Neighbor. Perhitungan centroid pada masingmaing sub sub kategori terdiri dari tiga buah artikel yang diambil nilai tengahnya kemudian dihitung jarak
kedekatan dengan masing-masing data uji. Berdasarkan hasil pengujian manual menunjukkan akurasi kebenaran
sebesar 60%.
Salah satu sumber informasi tersebut adalah Wikipedia Bahasa Indonesia. Banyaknya artikel yang masuk dalam
beberapa kategori menyebabkan pembaca kesulitan dalam mencari informasi, terutama dalam pencarian
berdasarkan kategori. Oleh karena itu diperlukan sebuah klasifikasi untuk artikel Wikipedia agar memiliki tepat
satu kategori namun tetap dapat berhubungan dengan kategori lainnya. Diperlukan sistem yang dapat
mengklasifikasi artikel Wikipedia Indonesia secara otomatis. Klasifikasi artikel Wikipedia Indonesia adalah
sebuah sistem yang berfungsi untuk mengklasifikasi artikel Wikipedia Indonesia yang berupa dokumen teks
dengan tahapan text preprocessing dilanjutkan dengan pembobotan TF IDF pada masing-masing artikel
Wikipedia Indonesia terbentuk vektor kata. Berdasarkan pembobotan tersebut, artikel-artikel Wikipedia
Indonesia tersebut diklasifikasikan dengan metode K Nearest Neighbor. Perhitungan centroid pada masingmaing sub sub kategori terdiri dari tiga buah artikel yang diambil nilai tengahnya kemudian dihitung jarak
kedekatan dengan masing-masing data uji. Berdasarkan hasil pengujian manual menunjukkan akurasi kebenaran
sebesar 60%.
Copyright ©2020 Jurusan Teknologi Informasi - Politeknik Negeri Malang.
References
Nugroho, Moh Aziz dan Santoso, Heru Agus, 2016.
"Klasifikasi Dokumen Komentar Pada Situs
Artikel
Waktu Eksekusi
TF
Waktu Eksekusi
TF IDF
1-100 35.29 detik 39.916 detik
101-200 36.563 detik 37.519 detik
201-300 42.431 detik 35.739 detik
301-400 35.53 detik 35.689 detik
401-500 35.618 detik 36.226 detik
501-572 29.761 detik 26.852 detik
Gambar 7. Contoh Pembahasan Pegujian
Youtube Menggunakan Algoritma K-Nearest
Neighbor (K-NN)". Jurnal Sistem Informasi
Purwanti, Endah., 2015. "Klasifikasi Dokumen
Temu Kembali Informasi dengan K-Nearest
Neghbour".e-ISSN 2442-5168. 1(2), 129-138
Samuel, Yoseph. Dkk, 2014. "Implementasi Metode
K-Nearest Neighbor dengan Decision Rule untuk
Klasifikasi Subtopik Berita". Jurnal Informatika.
10(1), 1-15
Turney, P. D. Pantel, dan Patrick. (2010). “From
Frequency to Meaning: Vector Space Models of
Semantics”. Journal of Artificial Intelegence
Reseach, 37, 141188.
Wang, Pu dan Carlotta Domeniconi, 2008. “Building
Semantic Kernels for Text Classification using
Wikipedia”. KDD ‘08 Proceedings of the 14th
ACM SIGKDD international conference on
Knowledge discovery and data mining. 713-721.
"Klasifikasi Dokumen Komentar Pada Situs
Artikel
Waktu Eksekusi
TF
Waktu Eksekusi
TF IDF
1-100 35.29 detik 39.916 detik
101-200 36.563 detik 37.519 detik
201-300 42.431 detik 35.739 detik
301-400 35.53 detik 35.689 detik
401-500 35.618 detik 36.226 detik
501-572 29.761 detik 26.852 detik
Gambar 7. Contoh Pembahasan Pegujian
Youtube Menggunakan Algoritma K-Nearest
Neighbor (K-NN)". Jurnal Sistem Informasi
Purwanti, Endah., 2015. "Klasifikasi Dokumen
Temu Kembali Informasi dengan K-Nearest
Neghbour".e-ISSN 2442-5168. 1(2), 129-138
Samuel, Yoseph. Dkk, 2014. "Implementasi Metode
K-Nearest Neighbor dengan Decision Rule untuk
Klasifikasi Subtopik Berita". Jurnal Informatika.
10(1), 1-15
Turney, P. D. Pantel, dan Patrick. (2010). “From
Frequency to Meaning: Vector Space Models of
Semantics”. Journal of Artificial Intelegence
Reseach, 37, 141188.
Wang, Pu dan Carlotta Domeniconi, 2008. “Building
Semantic Kernels for Text Classification using
Wikipedia”. KDD ‘08 Proceedings of the 14th
ACM SIGKDD international conference on
Knowledge discovery and data mining. 713-721.