Gangguan bicara dapat menyebabkan kesulitan bersosialisasi dan mendapat pekerjaan, sehingga dibutuhkan antarmuka yang dapat membantu komunikasi, seperti silent speech interface (SSI). SSI menggunakan data dari biosinyal manusia, salah satunya sinyal otak yang direkam non-invasif dengan elektroensefalograf (EEG), saat individu membayangkan mengucapkan sesuatu (ucapan imajiner).
Data EEG ucapan imajiner umumnya memiliki keterbatasan variasi ucapan dan jumlah sampel, sehingga model prediksi berisiko overfitting dan sulit mencapai generalisasi. Sejauh ini, akurasi prediksi dapat mencapai 90-100% namun spesifik untuk subjek tertentu, terkait dengan adanya dependensi subjek.
Masalah dependensi subjek pada model dekode ucapan imajiner berbasis EEG mencakup kasus inter-subjek dan intra-subjek, dan keduanya butuh adaptabilitas model. Kasus inter-subjek terjadi ketika model gagal mendekode ucapan imajiner dari sinyal EEG yang direkam dari pengguna (subjek) baru, sedangkan kasus intra-subjek terjadi ketika model gagal mendekode ucapan imajiner dari sinyal EEG dari subjek latih yang sama tapi di waktu berbeda. Meskipun sejumlah studi telah mengembangkan model adaptif untuk dekode ucapan imajiner dengan teknik transfer learning (TL), akurasinya masih rendah (30-60%).
Masalah utama yang ingin dijawab penelitian ini adalah bagaimana membangun model adaptif untuk pengenal pola ucapan imajiner berbasis EEG, sehingga bisa mengatasi masalah dependensi subjek. Karena itu, diperlukan fitur EEG yang representatif dan diskriminatif, untuk selanjutnya membangun model adaptif.
Dataset EEG yang digunakan pada riset ini adalah dataset primer (PrimAudio-DB) yang direkam dalam dua sesi untuk mereproduksi kasus intra-subjek, dan dataset sekunder (BCI-DB) dari riset terdahulu yang dapat diakses publik. Keduanya menggunakan audio cue yang diperdengarkan pada state terpisah dengan speech imagery state, agar aktivitas otak saat persepsi cue tidak memengaruhi sinyal EEG ketika ucapan imajiner. Satu trial terdiri dari rest state, cue presentation state, diikuti empat repetisi ucapan imajiner 2 detik. Setiap ucapan imajiner diawali 1 detik persiapan yang ditandai fixation cross ("+") di monitor.
Ucapan dan alat EEG pada PrimAudio-DB berbeda dari BCI-DB. PrimAudio-DB memakai ucapan penentu ("ya", "tidak", "yes", "no") sedangkan BCI-DB memakai ucapan ekspresif ("yes", "stop", "help me", "thank you", "hello"). BCI-DB direkam dari 15 subjek dengan EEG 256Hz 64 kanal dan batas impedansi 15 k?, sedangkan PrimAudio-DB dari 23 subjek dengan EEG 500Hz 21 kanal dan impedansi 10 k?.
Pembuatan model dekode ucapan imajiner meliputi tahap praproses sinyal, ekstraksi fitur, analisis spektro-spasial, pelatihan classifier dan adaptasi model. Praproses sinyal menggunakan notch filter, bandpass filter 0.5-127Hz, penghapusan artifak dengan FastICA, eksklusi bad trial, dan interpolasi bad channel. Ekstraksi fitur menggunakan pendekatan Time-Frequency Representation (TFR) yang menangkap aktivitas spektral dari osilasi terinduksi seperti event ucapan imajiner, yang tidak langsung terjadi ketika onset stimulus seperti osilasi terevokasi. Ekstraksi fitur menghasilkan Band-power Time Series (BTS). Pada analisis spektro-spasial, fitur BTS dikelompokkan secara spektral (Alpha, Beta, dan Gamma) dan spasial (area frontal, central, temporal, parietal, oksipital). Dari tiap bagian spektro-spasial, inter-speech distance dihitung dari BTS antar-ucapan dengan Euclidean distance; distance yang tinggi di spektro-spasial tertentu menunjukkan fitur BTS di kanal EEG dan rentang frekuensi tersebut berpotensi diskriminatif. Classifier yang diajukan adalah Random Forest (RF) karena rendah kompleksitas dan mudah diinterpretasi. Fitur BTS dibandingkan dengan fitur benchmark (statistik, entropi, band power, dan band energy), dan RF dibandingkan dengan k-Nearest Neighbors (k-NN), Support Vector Machine (SVM), Artificial Neural Network (ANN), dan Convolutional Neural Network (CNN). Validasi performa model non-adaptif dengan nested cross validation, sedangkan model adaptif dengan time series validation. Metode adaptasi menggunakan pendekatan Transfer Learning secara online, transduktif, dan transfer instance (trial) yang diseleksi berdasarkan informasi semantik dan bahasa.
Analisis spektro-spasial terhadap BTS dari ucapan imajiner dan perhitungan inter-speech distance menunjukkan pola perubahan power antar ucapan yang sangat berjarak di area frontal dalam frekuensi Gamma, sejalan dengan peran area frontal selama aktivitas kognitif yang menuntut fokus. Efektivitas hasil analisis spektro-spasial dikonfirmasi dengan classifier RF yang mencapai akurasi 0,986 ± 0,007 untuk BCI-DB (melebihi benchmark 0.718) dan 0,817 ± 0,206 untuk PrimAudio-DB, dengan fitur BTS dari kanal frontal dan frekuensi Gamma. Performa fitur BTS berhasil melebihi fitur benchmark dan classifier RF juga mendapat akurasi sebanding dengan CNN tapi kinerjanya lebih efisien.
Hasil analisis spektro-spasial dan perhitungan inter-speech distance juga mengidentifikasi pengaruh jenis ucapan dan bahasa. PrimAudio-DB menggunakan ucapan penentu, sehingga inter-speech distance lebih jauh di area frontal daripada temporal, berkebalikan dengan BCI-DB yang menggunakan ucapan ekspresif dan bisa melibatkan emosi sehingga mengaktivasi area temporal. Pada PrimAudio-DB, ucapan imajiner berbeda semantik memiliki inter-speech distance sangat tinggi jika ucapan dalam bahasa ibu (Bahasa Indonesia). Bahkan, inter-speech distance antar ucapan yang semantiknya sama dan berbeda bahasa masih lebih tinggi daripada antar ucapan berbeda semantik tapi berbahasa asing (Bahasa Inggris).
Penerapan cara adaptif dengan memilih instance yang memiliki kesamaan semantik walau berbeda bahasa (interlinguistik) meningkatkan akurasi model yang turun akibat kasus intra-subjek dan inter-subjek. Akurasi model non-adaptif 50% meningkat menjadi 91,5% (95% CI:88,7%-94,3%) pada intra-sesi atau 86,7% (95% CI:82,9%-90,5%) pada inter-sesi untuk intra-subjek dan mendekati 100% untuk inter-subjek. Sedangkan, perbedaan semantik berdampak sebaliknya (negative transfer). Walaupun cara interlinguistik membantu model beradaptasi, namun cara identifikasi kesamaan semantik masih memerlukan informasi label dari target. Limitasi ini menjadi fokus penelitian mendatang.
Perpustakaan Digital ITB