digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Rava Maulana Azzikri
Terbatas  Esha Mustika Dewi
» Gedung UPT Perpustakaan

Evaluasi kualitas teks hasil Natural Language Generation (NLG) merupakan tantangan fundamental dalam pengembangan language model. Penilaian manual oleh manusia memang dianggap sebagai standar acuan karena kemampuannya menilai berbagai aspek kualitas teks secara bersamaan, namun metode ini tidak efisien untuk skala besar. Oleh karena itu, dibutuhkan metrik evaluasi otomatis yang efisien dan mampu merefleksikan penilaian manusia. Tugas akhir ini melakukan analisis korelasi antara metrik evaluasi otomatis dengan penilaian manusia pada beberapa task NLG: summarization, classification, information extraction, general QA, open QA, closed QA, brainstorming, dan creative writing dalam empat bahasa: Indonesia, Sunda, Jawa, dan Minang. Untuk memudahkan analisis, dibangun sebuah kakas penguji untuk mengukur kesesuaian metrik evaluasi otomatis dengan penilaian manusia. Kakas yang dibangun pada tugas akhir ini bersifat modular dan fleksibel, serta diharapkan dapat mendukung penelitian lanjutan di bidang evaluasi NLG. Pengujian metrik dilakukan menggunakan dataset Dolly-15k yang telah diterjemahkan dan divalidasi kualitasnya oleh penutur asli. Output dari enam model LLM dievaluasi oleh anotator menggunakan skala Likert dalam beberapa aspek, kemudian tingkat korelasi antara skor metrik evaluasi dengan penilaian manusia dianalisis menggunakan koefisien Spearman. Hasil eksperimen menunjukkan bahwa metrik berbasis jaringan saraf tiruan seperti G-Eval dan BERTScore cenderung memiliki korelasi yang lebih tinggi dengan penilaian manusia dibandingkan metrik berbasis overlap n-gram. Selain itu, eksperimen memperlihatkan adanya variasi performa metrik pada setiap bahasa dan task, menegaskan bahwa tidak ada satu metrik pun yang superior di semua kondisi.