Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Globalisasi memengaruhi bahasa Inggris menjadi salah satu bahasa yang terus
berkembang menjadi bahasa komunikasi internasional. Namun, pembelajaran
bahasa pada keterampilan aktif seperti bercakap masih sulit dilakukan secara
mandiri. Perkembangan AI dapat membantu mengatasi permasalahan tersebut
dengan penyediaan teknologi voice chat yang dapat memahami tutur kata penutur
non-native dari berbagai latar belakang. Penelitian ini bertujuan untuk
membandingkan kemampuan model multimodal dengan kombinasi ASR dan LLM
open-source maupun closed-source dalam memahami tutur kata bahasa Inggris dari
penutur non-native berkebangsaan Indonesia. Evaluasi ini dilakukan dengan
mengikuti framework CRISP-DM yang terdiri dari business understanding, data
understanding, data preparation, modeling, dan evaluation. Dikumpulkan dataset
yang terdiri dari 26 orang subjek evaluasi terhadap 20 pertanyaan dengan topik
pengetahuan umum dan matematika dalam 2 versi, yaitu dengan rangkaian kata
masing-masing subjek evaluasi dan sesuai naskah. Evaluasi dilakukan dengan
menghitung WER, akurasi, dan cosine similarity dari hasil jawaban model LLM
berdasarkan transkripsi model ASR. Hasil evaluasi menunjukkan bahwa model
multimodal seperti GPT-4o memiliki kemampuan mentranskripsi dan menjawab
pertanyaan yang lebih unggul dibandingkan dengan kombinasi model ASR dan
model LLM open-source maupun closed-source dengan hasil WER 0.0967, akurasi
0.8269, dan cosine similarity 0.8964. Hasil ini disusul oleh kombinasi model ASR
dan LLM closed-source terbaik yaitu Claude 3.5 Sonnet dan Amazon Transcribe
dengan nilai WER 0.1045, akurasi 0.7856, dan cosine similarity 0.9194. Terakhir,
kombinasi model ASR dan LLM dengan model performa terbaik pada model open-
source, yaitu DeepSeek-V2 dan Canary-1B dengan nilai WER 0.1665, akurasi
0.7471, dan cosine similarity 0.9093.