Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Kehilangan kemampuan bicara akibat kelumpuhan merupakan kondisi yang
secara drastis menurunkan kualitas hidup dan memutus interaksi sosial
penderitanya. Neuroprosthesis bicara (speech neuroprosthesis) merupakan sistem
yang menerjemahkan sinyal aktivitas neural menjadi teks yang koheren dan
bermakna melalui beberapa tahap pemrosesan, mulai dari ekstraksi fitur neural
dan dekoding probabilitas fonem hingga penerapan model bahasa untuk
menyempurnakan transkripsi. Dalam beberapa tahun terakhir, model bahasa
n-gram digunakan untuk memandu algoritma pencarian heuristik dalam
mengonversi probabilitas fonem menjadi urutan kata. Namun, model Transformer
terbukti menawarkan peningkatan kinerja yang signifikan dalam menurunkan
tingkat kesalahan, sehingga membuka peluang untuk memperbaiki akurasi
transkripsi pada aplikasi speech neuroprosthesis.
Dataset penelitian diperoleh dari Willett et al. (2023) dan mencakup fitur neural
yang diambil dari 256 elektroda ECoG dengan frame temporal 20 ms, meliputi
spike band power dan threshold crossings, yang kemudian didekode menjadi
probabilitas fonem menggunakan BiRNN dengan CTC loss. Probabilitas fonem
ini diproses melalui beam search shallow fusion untuk menggabungkan skor
akustik dan skor bahasa.
Evaluasi kinerja akurasi transkripsi melalui Phone Error Rate (PER), Character
Error Rate (CER), dan Word Error Rate (WER), serta kecepatan dan efisiensi
pemrosesan melalui Words Per Minute (WPM) dan Real-Time Factor (RTF),
menunjukkan bahwa model Transformer fine-tuned pada korpus Open Web Text 2
memberikan trade-off terbaik. LLaMA 2 menempati posisi teratas dengan WER
16,9%, CER 14,5%, WPM 62,5, dan RTF 0,98. Sebaliknya, meski model n-gram
mencapai WPM di atas 74, WER-nya masih di kisaran 26%-29%. Temuan ini
menegaskan potensi model Transformer untuk aplikasi speech neuroprosthesis
pada penelitian ini.
Perpustakaan Digital ITB