digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Kehilangan kemampuan bicara akibat kelumpuhan merupakan kondisi yang secara drastis menurunkan kualitas hidup dan memutus interaksi sosial penderitanya. Neuroprosthesis bicara (speech neuroprosthesis) merupakan sistem yang menerjemahkan sinyal aktivitas neural menjadi teks yang koheren dan bermakna melalui beberapa tahap pemrosesan, mulai dari ekstraksi fitur neural dan dekoding probabilitas fonem hingga penerapan model bahasa untuk menyempurnakan transkripsi. Dalam beberapa tahun terakhir, model bahasa n-gram digunakan untuk memandu algoritma pencarian heuristik dalam mengonversi probabilitas fonem menjadi urutan kata. Namun, model Transformer terbukti menawarkan peningkatan kinerja yang signifikan dalam menurunkan tingkat kesalahan, sehingga membuka peluang untuk memperbaiki akurasi transkripsi pada aplikasi speech neuroprosthesis. Dataset penelitian diperoleh dari Willett et al. (2023) dan mencakup fitur neural yang diambil dari 256 elektroda ECoG dengan frame temporal 20 ms, meliputi spike band power dan threshold crossings, yang kemudian didekode menjadi probabilitas fonem menggunakan BiRNN dengan CTC loss. Probabilitas fonem ini diproses melalui beam search shallow fusion untuk menggabungkan skor akustik dan skor bahasa. Evaluasi kinerja akurasi transkripsi melalui Phone Error Rate (PER), Character Error Rate (CER), dan Word Error Rate (WER), serta kecepatan dan efisiensi pemrosesan melalui Words Per Minute (WPM) dan Real-Time Factor (RTF), menunjukkan bahwa model Transformer fine-tuned pada korpus Open Web Text 2 memberikan trade-off terbaik. LLaMA 2 menempati posisi teratas dengan WER 16,9%, CER 14,5%, WPM 62,5, dan RTF 0,98. Sebaliknya, meski model n-gram mencapai WPM di atas 74, WER-nya masih di kisaran 26%-29%. Temuan ini menegaskan potensi model Transformer untuk aplikasi speech neuroprosthesis pada penelitian ini.