digilib@itb.ac.id +62 812 2508 8800

13518089 Annisa Rahim.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Apabila terdapat gangguan dalam berkomunikasi, lip reading adalah teknik yang bisa digunakan oleh manusia untuk membaca gerak bibir lawan bicara. Teknik ini sulit dikuasai dalam lingkungan tanpa suara, sehingga banyak penelitian yang dilakukan untuk membangun sistem lip reading otomatis menggunakan deep learning, khususnya dalam bahasa Inggris. Dalam bahasa Indonesia, kendala terbesar adalah keterbatasan dataset, dengan dataset terbesar saat ini bernama AVID, berisi kumpulan kalimat perintah. Dataset ini memiliki struktur kalimat terbatas (command + object + color + preposition + letter + digit) dengan jumlah kata sebanyak 51. Penelitian dilakukan pada level kalimat dengan prediksi yang sangat terbatas pada struktur kalimat di dataset tersebut. Penelitian Tugas Akhir ini mencoba melakukan pengembangan sistem lip reading bahasa Indonesia dengan susunan kalimat yang lebih bebas. Pendekatan dilakukan pada level kata, menggunakan dataset AVID yang diproses terlebih dahulu menjadi 2550 video kata dan jumlah label sebanyak 51. Video dimuat ke dalam alur preprocessing dalam bentuk sequence of frame, untuk masuk ke dalam tahap facial landmarks, lips region cropping, dan frame padding. Sistem prediksi menggunakan alur two stage yang terinspirasi dari OCR: tahap pertama berisi model klasifikasi jenis kata, dan tahap kedua berisi enam model klasifikasi kata sesuai jenis kata masing-masing. Pada setiap model, arsitektur yang digunakan adalah 3D Conv + ResNet (front-end) dan MS-TCN (back-end). Model akhir menggunakan metode face alignment pada proses preprocessing, dengan hasil akurasi model tahap pertama (jenis kata) sebesar 72.9%, dan model tahap kedua yaitu command, color, object, preposition, letter, dan digit secara berurutan sebesar 85%, 83.3%, 92.5%, 57.5%, 41.5%, dan 84%. Akurasi sistem final yang dicapai adalah sebesar 40.78%. Performa akhir menurun karena model tahap pertama mengalami overfit pada label letter dan digit akibat data imbalance. Dalam satu kali pengujian, sistem memiliki kecepatan load model sebesar 1 menit 27 detik dan kecepatan prediksi mencapai 4.05 FPS.