ABSTRAK Saddam Annais Shaquille
Terbatas  Esha Mustika Dewi
» Gedung UPT Perpustakaan
Terbatas  Esha Mustika Dewi
» Gedung UPT Perpustakaan
Ucapan tumpang tindih dapat secara signifikan menurunkan akurasi sistem Automatic Speech Recognition (ASR). Integrasi Model Bahasa Besar dengan Model Audio dalam arsitektur bimodal menawarkan solusi potensial untuk masalah ini. Namun, strategi pelatihan yang optimal untuk memaksimalkan performa sistem tersebut masih perlu dieksplorasi lebih lanjut.
Penelitian ini bertujuan untuk mengatasi ucapan tumpang tindih menggunakan sistem Model Bahasa Besar dan Audio Bimodal melalui analisis komparatif terhadap beberapa strategi pelatihan. Strategi yang diuji meliputi pelatihan bertahap dengan membandingkan urutan adaptasi komponen bahasa dan akustik.. Strategi ini juga dibandingkan dengan pelatihan kedua bagian sekaligus.
Hasil menunjukkan bahwa urutan pelatihan berpengaruh signifikan terhadap akurasi. Pendekatan yang mengadaptasi LLM sebelum model akustik menghasilkan performa terbaik dengan Word Error Rate (WER) sebesar 8,96%. Sementara itu, adaptasi menggunakan LoRA pada pendekatan yang sama juga unggul dengan WER 9,07% dan 28,3% lebih hemat dalam penggunaan GPU Hours. Kedua pendekatan ini lebih unggul dibandingkan pelatihan gabungan (9,35%) dan pendekatan yang mendahulukan komponen akustik (9,62%).
Kontribusi utama penelitian ini adalah analisis yang menunjukkan bahwa urutan pelatihan komponen memengaruhi WER akhir sistem ASR bimodal.
Perpustakaan Digital ITB