Proses key-framing dalam produksi animasi membutuhkan waktu yang banyak
dan merupakan pekerjaan yang melelahkan. Untuk animasi wajah, pembuatan
animasi dapat dibantu menggunakan performance capture berbasis visual yang
menangkap gerakan wajah aktor untuk secara otomatis menjadi keyframe pada
aplikasi animasi. Namun, solusi ini memerlukan perlengkapan yang mahal serta
persiapan yang rumit. Pendekatan solusi lain adalah dengan membuat animasi
wajah hanya dari suara ucapan sebagai alternatif dari pendekatan berbasis visual.
Permasalahan utama untuk pendekatan ini adalah adanya fenomena coarticulation
pada ucapan manusia di mana konteks masa lalu dan konteks masa kini ucapan
mempengaruhi representasi wajah masa kini. Saat ini penelitian-penelitian
pencarian metode terbaik masih dilakukan untuk menghasilkan pemetaan antara
fitur suara dan fitur representasi wajah dengan akurasi yang tinggi serta kualitas
animasi yang baik.
Pada penelitian ini, implementasi dari model pembelajaran mesin berbasis
Transformer diperkenalkan sebagai solusi alternatif dari solusi penelitianpenelitian sebelumnya. Mekanisme multi-head self-attention yang ada pada
bagian encoder pada arsitektur Transformer digunakan untuk membangun sebuah
model yang memprediksi fitur landmark wajah dari data sekuensial fitur ucapan.
Mekanisme attention memberikan penilaian fitur berdasarkan posisinya dalam
data sekuensial sehingga mekanisme ini dapat memodelkan fenomena
coarticulation dalam ucapan.
i
Mel-Frequency Cepstral Coefficient (MFCC) berikut turunan pertama dan
keduanya dipilih sebagai fitur ucapan dan landmark wajah dipilih sebagai fitur
representasi wajah. Tidak ada fitur penengah yang digunakan seperti fonem dan
suku kata untuk mengejar solusi yang bebas dari keterikatan bahasa. Data
landmark wajah diperoleh dengan menggunakan OpenFace toolkit. Data yang
dipilih untuk pembelajaran mesin bukanlah data landmark wajah langsung akan
tetapi jarak posisi landmark dari landmark wajah diam untuk mendapatkan
pergerakan wajah yang bebas dari bentuk wajah pembicara. Data sekuensial baik
masukan dan keluaran untuk pembelajaran mesin dikontruksi menggunakan
metode sliding windows sehingga memiliki konteks masa lalu dan konteks masa
depan.
Untuk mengukur kinerja hasil animasi yang dihasilkan, dilakukan kajian
perbandingan dengan 3 solusi lain yaitu Multi Layer Perceptron (MLP),
Convolutional Neural Network (CNN), dan Long Short-Term Memory (LSTM).
Hasil evaluasi akurasi prediksi menunjukkan bahwa metode Transformer
mempunyai kinerja yang lebih baik dengan akurasi nilai Root Mean Squared
Error (RMSE) yaitu 0,9259 mm dibandingkan nilai RMSE dari keluaran MLP
yaitu 0,9267 mm. Namun. kinerja akurasi RMSE Transformer masih di bawah
akurasi LSTM yaitu 0,924 mm dan CNN yaitu 0,9244 mm.
Selain akurasi, pada penelitian ini dilakukan pengujian waktu prediksi untuk
single frame untuk melihat apakah sistem bisa digunakan pada aplikasi real time.
Hasil pengujian menunjukkan waktu prediksi rata-rata model Transformer adalah
14,73 ms yang masih di bawah kriteria yaitu 16,66 ms apabila aplikasi
mempunyai frame rate 60 frame per detik. Waktu prediksi ini tidak lebih baik dari
waktu prediksi model MLP, CNN, dan LSTM dengan masing-masing waktu
prediksi 4,91 ms, 6,68 ms, dan 5,56 ms. Sehingga disimpulkan solusi-solusi lain
lebih sesuai untuk aplikasi real time.
Kinerja hasil prediksi juga dievaluasi dari kehalusan kurva yang dihasilkan. Hasil
pengamatan kurva animasi dan spektrum frekuensi pada hasil-hasil prediksi
ii
menunjukkan bahwa terdapat noise yang menyebabkan ketidak halusan hasil
animasi MLP dan LSTM. Hal ini tidak ditemukan pada hasil model CNN dan
Transformer. Pada penelitian ini juga dibuat algoritma penghalusan untuk
keluaran data sekuens yang dapat digunakan pada keluaran MLP dan
Transformer. Berdasarkan pengamatan, algoritma ini dapat membuat hasil
keluaran Transformer mempunyai kehalusan animasi terbaik dibandingkan hasil
keluaran model lainnya walaupun pengujian menunjukkan tidak adanya
peningkatan akurasi menggunakan RMSE. Berdasarkan hasil tersebut,
disimpulkan bahwa perlunya metrik tambahan atau metrik pengganti RMSE yang
lebih representatif untuk mengukur kehalusan dari animasi yang dihasilkan.
Hasil prediksi divisualisasikan pada aplikasi Unity 3D untuk melihat lebih jauh
hasil animasi yang dihasilkan. Pengamatan pada visualisasi animasi
memperlihatkan bahwa terdapat deformasi bentuk kepala ketika berbicara. Namun
hal ini juga terlihat pada data asli keluaran OpenFace sehingga permasalahan
berasal dari perolehan fitur data dari OpenFace. Untuk mengatasi masalah ini,
dilakukan penskalaan nilai pergerakan yang berbeda-beda untuk setiap landmark.