ANALISIS SKEMA – SKEMA KEMIRIPAN VEKTOR PADA DESKRIPSI VIDEO MICROSOFT BAHASA INDONESIA

  • Ahmad Hafidh Ayatullah Program Studi Teknik Informatika, Jurusan Teknologi Informasi, Politeknik Negeri Malang
  • Kadek Suarjuna Batubulan Program Studi Teknik Informatika, Jurusan Teknologi Informasi, Politeknik Negeri Malang

Abstract

Natural Language Processing (NLP) adalah kecerdasan buatan yang membantu komputer untuk memahami bahasa manusia. Untuk membuat NLP dibutuhkan standar data uji yang berisi kalimat bermacam-macam tetapi memiliki makna yang sama. Microsoft Research: Video Description Corpus telah menyediakan data uji menggunakan bahasa Inggris. Maka dari itu penelitian ini membuat data uji berbahasa Indonesia agar dapat membantu peneliti NLP berbahasa Indonesia. Data uji di dapatkan dengan cara meminta berberapa responden untuk malihat dan mendeskripsi video. Sehingga didapatkan kalimat yang bermacam-macam tetapi memiliki makna yang sama. Data uji yang baik adalah data uji yang menggunakan kata-kata yang bervariasi tetapi memungkingkan memiliki makna yang sama. Oleh karena itu penelitian ini menganalisis perbandingan deskripsi menggunakan skema – skema kemiripan vektor seperti metode jaccard. metode cosine, metode euclidean, dan metode manhattan agar dapat mengetahui perbandingan kemiripan makna dari berbagai skema kemiripan vektor. Penelitian ini mendapatkan 43753 deskripsi dari 1959 video. Hasil yang didapatkan rata-rata metode jaccard secara keseluruhan adalah 78%. Metode cosine secara keseluruhan adalah 67%. Metode euclidean secara keseluruhan adalah 238,24%. Metode manhattan secara keseluruhan adalah 608,86. Sehingga dapat disimpulkan bahwa hasil data uji dari penelitian ini dapat menjadi data uji untuk Analisis Skema – skema Kemiripan Vektor Pada Dataset Microsoft Video Description Corpus Bahasa Indonesia.

Published
2018-08-31