digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Globalisasi memengaruhi bahasa Inggris menjadi salah satu bahasa yang terus berkembang menjadi bahasa komunikasi internasional. Namun, pembelajaran bahasa pada keterampilan aktif seperti bercakap masih sulit dilakukan secara mandiri. Perkembangan AI dapat membantu mengatasi permasalahan tersebut dengan penyediaan teknologi voice chat yang dapat memahami tutur kata penutur non-native dari berbagai latar belakang. Penelitian ini bertujuan untuk membandingkan kemampuan model multimodal dengan kombinasi ASR dan LLM open-source maupun closed-source dalam memahami tutur kata bahasa Inggris dari penutur non-native berkebangsaan Indonesia. Evaluasi ini dilakukan dengan mengikuti framework CRISP-DM yang terdiri dari business understanding, data understanding, data preparation, modeling, dan evaluation. Dikumpulkan dataset yang terdiri dari 26 orang subjek evaluasi terhadap 20 pertanyaan dengan topik pengetahuan umum dan matematika dalam 2 versi, yaitu dengan rangkaian kata masing-masing subjek evaluasi dan sesuai naskah. Evaluasi dilakukan dengan menghitung WER, akurasi, dan cosine similarity dari hasil jawaban model LLM berdasarkan transkripsi model ASR. Hasil evaluasi menunjukkan bahwa model multimodal seperti GPT-4o memiliki kemampuan mentranskripsi dan menjawab pertanyaan yang lebih unggul dibandingkan dengan kombinasi model ASR dan model LLM open-source maupun closed-source dengan hasil WER 0.0967, akurasi 0.8269, dan cosine similarity 0.8964. Hasil ini disusul oleh kombinasi model ASR dan LLM closed-source terbaik yaitu Claude 3.5 Sonnet dan Amazon Transcribe dengan nilai WER 0.1045, akurasi 0.7856, dan cosine similarity 0.9194. Terakhir, kombinasi model ASR dan LLM dengan model performa terbaik pada model open- source, yaitu DeepSeek-V2 dan Canary-1B dengan nilai WER 0.1665, akurasi 0.7471, dan cosine similarity 0.9093.