ABSTRAK Rava Maulana Azzikri
Terbatas  Esha Mustika Dewi
» Gedung UPT Perpustakaan
Terbatas  Esha Mustika Dewi
» Gedung UPT Perpustakaan
Evaluasi kualitas teks hasil Natural Language Generation (NLG) merupakan tantangan
fundamental dalam pengembangan language model. Penilaian manual oleh manusia memang
dianggap sebagai standar acuan karena kemampuannya menilai berbagai aspek kualitas teks
secara bersamaan, namun metode ini tidak efisien untuk skala besar. Oleh karena itu,
dibutuhkan metrik evaluasi otomatis yang efisien dan mampu merefleksikan penilaian
manusia. Tugas akhir ini melakukan analisis korelasi antara metrik evaluasi otomatis dengan
penilaian manusia pada beberapa task NLG: summarization, classification, information
extraction, general QA, open QA, closed QA, brainstorming, dan creative writing dalam
empat bahasa: Indonesia, Sunda, Jawa, dan Minang. Untuk memudahkan analisis, dibangun
sebuah kakas penguji untuk mengukur kesesuaian metrik evaluasi otomatis dengan penilaian
manusia. Kakas yang dibangun pada tugas akhir ini bersifat modular dan fleksibel, serta
diharapkan dapat mendukung penelitian lanjutan di bidang evaluasi NLG.
Pengujian metrik dilakukan menggunakan dataset Dolly-15k yang telah diterjemahkan dan
divalidasi kualitasnya oleh penutur asli. Output dari enam model LLM dievaluasi oleh
anotator menggunakan skala Likert dalam beberapa aspek, kemudian tingkat korelasi antara
skor metrik evaluasi dengan penilaian manusia dianalisis menggunakan koefisien Spearman.
Hasil eksperimen menunjukkan bahwa metrik berbasis jaringan saraf tiruan seperti G-Eval
dan BERTScore cenderung memiliki korelasi yang lebih tinggi dengan penilaian manusia
dibandingkan metrik berbasis overlap n-gram. Selain itu, eksperimen memperlihatkan
adanya variasi performa metrik pada setiap bahasa dan task, menegaskan bahwa tidak ada
satu metrik pun yang superior di semua kondisi.
Perpustakaan Digital ITB