digilib@itb.ac.id +62 812 2508 8800

Proses key-framing dalam produksi animasi membutuhkan waktu yang banyak dan merupakan pekerjaan yang melelahkan. Untuk animasi wajah, pembuatan animasi dapat dibantu menggunakan performance capture berbasis visual yang menangkap gerakan wajah aktor untuk secara otomatis menjadi keyframe pada aplikasi animasi. Namun, solusi ini memerlukan perlengkapan yang mahal serta persiapan yang rumit. Pendekatan solusi lain adalah dengan membuat animasi wajah hanya dari suara ucapan sebagai alternatif dari pendekatan berbasis visual. Permasalahan utama untuk pendekatan ini adalah adanya fenomena coarticulation pada ucapan manusia di mana konteks masa lalu dan konteks masa kini ucapan mempengaruhi representasi wajah masa kini. Saat ini penelitian-penelitian pencarian metode terbaik masih dilakukan untuk menghasilkan pemetaan antara fitur suara dan fitur representasi wajah dengan akurasi yang tinggi serta kualitas animasi yang baik. Pada penelitian ini, implementasi dari model pembelajaran mesin berbasis Transformer diperkenalkan sebagai solusi alternatif dari solusi penelitianpenelitian sebelumnya. Mekanisme multi-head self-attention yang ada pada bagian encoder pada arsitektur Transformer digunakan untuk membangun sebuah model yang memprediksi fitur landmark wajah dari data sekuensial fitur ucapan. Mekanisme attention memberikan penilaian fitur berdasarkan posisinya dalam data sekuensial sehingga mekanisme ini dapat memodelkan fenomena coarticulation dalam ucapan. i Mel-Frequency Cepstral Coefficient (MFCC) berikut turunan pertama dan keduanya dipilih sebagai fitur ucapan dan landmark wajah dipilih sebagai fitur representasi wajah. Tidak ada fitur penengah yang digunakan seperti fonem dan suku kata untuk mengejar solusi yang bebas dari keterikatan bahasa. Data landmark wajah diperoleh dengan menggunakan OpenFace toolkit. Data yang dipilih untuk pembelajaran mesin bukanlah data landmark wajah langsung akan tetapi jarak posisi landmark dari landmark wajah diam untuk mendapatkan pergerakan wajah yang bebas dari bentuk wajah pembicara. Data sekuensial baik masukan dan keluaran untuk pembelajaran mesin dikontruksi menggunakan metode sliding windows sehingga memiliki konteks masa lalu dan konteks masa depan. Untuk mengukur kinerja hasil animasi yang dihasilkan, dilakukan kajian perbandingan dengan 3 solusi lain yaitu Multi Layer Perceptron (MLP), Convolutional Neural Network (CNN), dan Long Short-Term Memory (LSTM). Hasil evaluasi akurasi prediksi menunjukkan bahwa metode Transformer mempunyai kinerja yang lebih baik dengan akurasi nilai Root Mean Squared Error (RMSE) yaitu 0,9259 mm dibandingkan nilai RMSE dari keluaran MLP yaitu 0,9267 mm. Namun. kinerja akurasi RMSE Transformer masih di bawah akurasi LSTM yaitu 0,924 mm dan CNN yaitu 0,9244 mm. Selain akurasi, pada penelitian ini dilakukan pengujian waktu prediksi untuk single frame untuk melihat apakah sistem bisa digunakan pada aplikasi real time. Hasil pengujian menunjukkan waktu prediksi rata-rata model Transformer adalah 14,73 ms yang masih di bawah kriteria yaitu 16,66 ms apabila aplikasi mempunyai frame rate 60 frame per detik. Waktu prediksi ini tidak lebih baik dari waktu prediksi model MLP, CNN, dan LSTM dengan masing-masing waktu prediksi 4,91 ms, 6,68 ms, dan 5,56 ms. Sehingga disimpulkan solusi-solusi lain lebih sesuai untuk aplikasi real time. Kinerja hasil prediksi juga dievaluasi dari kehalusan kurva yang dihasilkan. Hasil pengamatan kurva animasi dan spektrum frekuensi pada hasil-hasil prediksi ii menunjukkan bahwa terdapat noise yang menyebabkan ketidak halusan hasil animasi MLP dan LSTM. Hal ini tidak ditemukan pada hasil model CNN dan Transformer. Pada penelitian ini juga dibuat algoritma penghalusan untuk keluaran data sekuens yang dapat digunakan pada keluaran MLP dan Transformer. Berdasarkan pengamatan, algoritma ini dapat membuat hasil keluaran Transformer mempunyai kehalusan animasi terbaik dibandingkan hasil keluaran model lainnya walaupun pengujian menunjukkan tidak adanya peningkatan akurasi menggunakan RMSE. Berdasarkan hasil tersebut, disimpulkan bahwa perlunya metrik tambahan atau metrik pengganti RMSE yang lebih representatif untuk mengukur kehalusan dari animasi yang dihasilkan. Hasil prediksi divisualisasikan pada aplikasi Unity 3D untuk melihat lebih jauh hasil animasi yang dihasilkan. Pengamatan pada visualisasi animasi memperlihatkan bahwa terdapat deformasi bentuk kepala ketika berbicara. Namun hal ini juga terlihat pada data asli keluaran OpenFace sehingga permasalahan berasal dari perolehan fitur data dari OpenFace. Untuk mengatasi masalah ini, dilakukan penskalaan nilai pergerakan yang berbeda-beda untuk setiap landmark.