EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

2016: Seminar Informatika Aplikatif Polinema (SIAP)

Afri Yosela Putri
Faisal Rahutomo
Ridwan Rismanto

Abstract

Informasi menjadi suatu hal yang dibutuhkan seiring dengan perkembangan teknologi informasi dan komunikasi.
Salah  satu  sumber  informasi  tersebut  adalah  situs  berita  daring  yang  berisi  artikel  berita  dengan  topik  yang
berbeda. Dengan banyaknya jumlah artikel berita dengan berbagai  macam  topik maka proses pengelompokan
tersebut menjadi sulit dilakukan dan membutuhkan waktu yang lama. Oleh karena itu, dibutuhkan sistem yan g
dapat  mengelompokkan  artikel  berita  secara  otomatis  agar  proses  pengelompokkan lebih  mudah  dan  cepat.
Ekstraksi  fitur  situs  berita  online  bertujuan  mengelempokkan  artikel  berita  secara  otomatis  dan  mendapatkan
artikel yang populer dalam jangka waktu tertentu. Penelitian ini menggunakan tahapan  text preprocessinguntuk
pengolahan teks dilanjutkan dengan pembobotan  TF IDFpada masing-masing artikel berita sehingga terbentuk
vector term. Berdasarkan pembobotan tersebut, artikel-artikel berita tersebut dikelompokkan  dengan metode  KMeans  Clustering.  Hasil  pengelompokkan  (clustering)  tersebut  menunjukkan  jumlah  populasi  artikel  setiap
cluster. Proses pemilihan judul artikel berdasarkan kedekatan euclidean distance. Aplikasi ini telah diuji dengan
membandingkan keluaran sistem dengan hasil keputusan manual. Pengujian tersebut dilakukan dengan masukan
persentase  jumlah  cluster yang  berbeda.  Berdasarkan  hasil  pengujian  tersebut,  terdapat  beberapa  faktor  yang
mempengaruhi akurasi kebenaran pada pengujian metode  K-Means Clusteringyaitu persentase jumlah  cluster,
semakin  besar  jumlah  cluster maka  artikel  berita  yang  dikelompokkan  semakin  spesifik.  Hal  tersebut
menyebabkan tingkat akurasi kebenaran semakin tinggi.

References

Arthur, David and Sergei Vassilvitskii, 2006, How
Slow is the k-Means Method, Stanford
University, Stanford, CA.
Bhatia, Sanjiv K., 2004, Adaptive K-Means
clustering, Department of Mathematics &
Computer Science, University of Missouri –St.
Louis.
Ediyanto. Dkk, 2013. "Pengklasifikasian
Karakteristik Dengan Metode K-Means Cluster
Analysis". Buletin Ilmiah Mat. Stat. dan
Terapannya (Bimaster). 2(2), 133-136
Handoyo, Rendy. Dkk, 2014. "Perbandingan Metode
Clustering Menggunakan Metode Single Linkage
Dan K - Means Pada Pengelompokan
Dokumen". ISSN. 1412-0100. 15(2), 73-82
Husni, Yudha Dwi Putra Negara, dkk, 2015.
"Clusterisasi Dokumen Web (Berita) Bahasa
Indonesia Menggunakan Algoritma K-Means".
Jurnal Cimantec. 4(3), 159-166
Lloyd, S. P. (1982). Least squares quantization in
PCM. IEEE Transactions on Information Theory
28 (2): 129–137. doi:10.1109/TIT.1982.1056489.
Mahdavi, Mehrdad and Hassan Abolhassani; 2008,
Harmony k-Means Algorithm for Document
clustering, Springer Science+Business Media,
LLC 2008.
Ramos, Juan, 2010, Using TF-IDF to Determine
Word Relevance in Document Queries,
Department of Computer Science, Rutgers
University, Piscataway.
Robertson, Stephen, 2004, Understanding Inverse
Document Frequency: On Theoritical
Arguments for IDF, Journal of Documentation;
2004; 60, 5; ABI/INFORM Global.
Tarpey, Thaddeus, 2007, A Parametric k-Means
Algorithm, © Springer Verlag 2007,
Computational Statistic 22: 71-89.