PENGEMBANGAN DATA UJI SISTEM KOMPUTASI KEMIRIPAN TEKS SECARA SEMANTIK BERBAHASA INDONESIA

2016: Seminar Informatika Aplikatif Polinema (SIAP)

Riza Akbar Nurhadi
Faisal Rahutomo
Budi Harijanto

Abstract

Komputer membutuhkan  Natural Lenguage Processing(NLP) agar komputer dapat memahami bahasa alami manusia.
Untuk  membuat  NLP  dibutuhkan  standar  data  uji,  seperti  yang  sudah  diteliti  pada  penelitian  Microsoft  Research:  Video
Description  Corpus.  Tetapi  Microsoft  Research hanya  menyediakan  data  uji  menggukan  bahasa  Inggris,  maka  dari  itu
diperlukan  data  uji  berbahasa  indonesia  agar  dapat  membantu  peneliti  pemrograman  bahasa  alami  berbahasa  Indonesia.
Seperti yang dilakukan oleh  Microsoft Research: Video Description Corpus, penelitian ini menggunakan responden untuk
mendeskripsi sebuah video agar mendapatkan ungkapan yang bermacam-macam tetapi memiliki makna yang sama. Maka
dari itu dibutuhkan sistem yang dapat menampilkan video dan mendeskripsi video yang dapat digunakan untuk mendapatkan
data uji. Data uji tersebut akan dianalisa menggunakan Metode  Jaccardyang dapat menghitung nilai perbedaan kata yang
digunakan  dari  setiap  ungkapan  responden.  Sehingga  dengan metode  ini  dapat  menentukan  kualitas  data  uji  yang  akan
didapatkan. Video  yang  digunakan  sebanyak  150  video  dan  di  dekripsi  oleh  responden  sebanyak  kurang  lebih  28 orang.
Penelitian  ini  berhasil  mendapatkan  data  uji  yang  baik  sehingga  dapat  digunakan  untuk  penelitan  NLP  seperti  Sistem
komputasi teks secara semantik.

References

Komputer membutuhkan Natural Lenguage Processing(NLP) agar komputer dapat memahami bahasa alami manusia.
Untuk membuat NLP dibutuhkan standar data uji, seperti yang sudah diteliti pada penelitian Microsoft Research: Video
Description Corpus. Tetapi Microsoft Research hanya menyediakan data uji menggukan bahasa Inggris, maka dari itu
diperlukan data uji berbahasa indonesia agar dapat membantu peneliti pemrograman bahasa alami berbahasa Indonesia.
Seperti yang dilakukan oleh Microsoft Research: Video Description Corpus, penelitian ini menggunakan responden untuk
mendeskripsi sebuah video agar mendapatkan ungkapan yang bermacam-macam tetapi memiliki makna yang sama. Maka
dari itu dibutuhkan sistem yang dapat menampilkan video dan mendeskripsi video yang dapat digunakan untuk mendapatkan
data uji. Data uji tersebut akan dianalisa menggunakan Metode Jaccardyang dapat menghitung nilai perbedaan kata yang
digunakan dari setiap ungkapan responden. Sehingga dengan metode ini dapat menentukan kualitas data uji yang akan
didapatkan. Video yang digunakan sebanyak 150 video dan di dekripsi oleh responden sebanyak kurang lebih 28 orang.
Penelitian ini berhasil mendapatkan data uji yang baik sehingga dapat digunakan untuk penelitan NLP seperti Sistem
komputasi teks secara semantik.