Pengenalan ekspresi wajah, khususnya ekspresi mikro, telah menjadi bidang penelitian yang berkembang pesat seiring dengan kemajuan teknologi pengolahan citra dan deep learning. Ekspresi mikro merupakan ekspresi wajah berdurasi sangat singkat, kurang dari satu detik, dan umumnya mencerminkan emosi sebenarnya yang berusaha disembunyikan oleh seseorang. Oleh karena itu, pengenalan ekspresi mikro memiliki nilai penting dalam berbagai aplikasi, seperti keamanan nasional, deteksi kebohongan, diagnosis medis, interogasi kriminal, serta analisis psikologis dan bisnis. Namun, durasi yang sangat singkat dan perubahan ekspresi yang halus membuat proses pengenalannya menjadi lebih sulit. Untuk meningkatkan akurasi pengenalan, penggunaan video berdurasi panjang dengan frame rate tinggi menjadi pendekatan yang efektif. Urutan frame pada video panjang memungkinkan rekonstruksi spasial-temporal yang lebih mendetail, sehingga perubahan kecil dalam ekspresi wajah dapat diamati dengan lebih akurat dalam dimensi waktu. Selain itu, frame rate tinggi diperlukan untuk menangkap setiap perubahan mikro dalam rentang waktu yang sangat singkat, sebagaimana diterapkan dalam dataset yang digunakan pada penelitian disertasi ini seperti CAS(ME)², SMIC-HS, SAMM-LV, CASME II, dan CAS(ME)³. Dengan demikian, penelitian disertasi ini bertujuan mengembangkan metode berbasis deep learning yang mampu mengenali ekspresi mikro spontan secara akurat dalam urutan video panjang guna meningkatkan efektivitas analisis emosi.
Ekspresi mikro spontan merujuk pada ekspresi yang muncul secara alami tanpa kontrol sadar individu, sebagai respons refleks terhadap stimulus emosional yang kuat. Berbeda dengan ekspresi mikro yang disengaja atau posed, yang dibuat dengan kesadaran penuh, ekspresi mikro spontan tidak dapat dikendalikan oleh individu dan lebih mencerminkan emosi sebenarnya. Namun, karakteristik spontan ini membuat pengenalan ekspresi mikro menjadi lebih menantang, karena individu sering tidak menyadari kemunculannya. Oleh karena itu, pendekatan berbasis computer vision dan deep learning diperlukan untuk menangkap serta menganalisis pola ekspresi mikro spontan dengan akurasi tinggi. Selain itu, karena intensitas pergerakan wajah dalam ekspresi mikro spontan lebih kecil dibandingkan ekspresi lainnya, penggunaan video berdurasi panjang dengan frame rate tinggi sangat penting agar perbedaan kecil dalam ekspresi wajah dapat terdeteksi lebih efektif.
Penelitian disertasi ini mengusulkan pengembangan rangkaian proses atau pipeline yang inovatif untuk mengenali ekspresi mikro spontan dengan tingkat akurasi tinggi. Pipeline pengenalan ekspresi mikro umumnya terdiri dari tiga tahapan utama yaitu data preparation, features extraction, dan classificasion. Sedangkan untuk penelitian ini, pipeline yang diusulkan mencakup beberapa tahapan proses, mulai dari data preparation, image preprocessing, dan data preprocessing, hingga klasifikasi menggunakan arsitektur model deep learning berbasis jaringan konvolusi 3D Triple Path yang diintegrasikan dengan Hybrid Attention atau Spatial-Temporal Attention. Setiap tahap dirancang untuk mengatasi berbagai permasalahan yang sering muncul dalam proses pengenalan ekspresi mikro, seperti keterbatasan jumlah dataset, ketidakseimbangan distribusi kelas emosi, serta kesulitan dalam mengekstraksi fitur spasial-temporal pada aliran data.
Setelah proses data preparation selesai dilakukan, tahapan pertama dalam penelitian disertasi ini adalah image preprocessing, yang dimulai dengan pengambilan video ekspresi mikro dari lima dataset utama. Dataset-dataset ini memiliki karakteristik video durasi panjang, yang ditandai dengan durasi rekaman lebih lama dibandingkan dataset ekspresi mikro lainnya serta frame rate minimal 30 fps. Karakteristik ini memungkinkan akuisisi perubahan ekspresi mikro secara lebih rinci dalam dimensi spasial-temporal, sehingga mendukung proses analisis yang lebih akurat. Setiap dataset dikonversi menjadi citra berurutan, yang kemudian dilakukan proses face detection dan identifikasi fitur menggunakan 68-facial landmark. Pada tahap ini, area wajah yang tidak relevan, seperti area mata dan mulut, ditutupi menggunakan masking untuk menghilangkan gangguan visual. Setelah itu, wajah dipotong dan diubah ukurannya menjadi lebih kecil serta dikonversi ke skala keabuan atau grayscale. Selanjutnya, dilakukan data preprocessing untuk mengatasi ketidakseimbangan distribusi kelas dalam dataset dan teknik augmentasi data digunakan untuk menambah jumlah sampel dalam kelas yang kurang terwakili dalam dataset.
Proses klasifikasi dilakukan menggunakan model jaringan konvolusi 3D Triple Path, yang dirancang untuk menganalisis perubahan spasial dan temporal pada ekspresi mikro spontan. Model ini mengintegrasikan Hybrid Attention, yang memungkinkan fitur-fitur yang dibutuhkan untuk proses pengenalan ekspresi mikro diekstraksi lebih baik dengan memberi fokus lebih besar pada area wajah yang mengandung informasi emosi paling signifikan. Setiap dataset dianalisis secara terpisah, dan akurasi dihitung untuk mengukur kinerja model pada masing-masing dataset.
Hasil penelitian disertasi ini menunjukkan bahwa akurasi model yang dihasilkan mencapai akurasi sebesar 94,00% pada dataset CAS(ME)², 95,85% pada dataset SMIC-HS, 95,00% pada dataset SAMM-LV, 98,87% pada dataset CASME II, dan 98,21% pada dataset CAS(ME)³.
Perpustakaan Digital ITB