Deepfake merupakan salah satu jenis modifikasi konten multimedia yang
memanfaatkan metode berbasis deep learning, seperti Generative Adversarial
Networks dan Deep Autoencoder. Kemampuan deepfake yang semakin sulit
dibedakan dari konten asli mendorong adanya kebutuhan terhadap sistem deteksi
deepfake yang andal, terutama untuk mencegah penggunaan deepfake dengan
tujuan negatif. Pada awal perkembangannya, beberapa konten deepfake memiliki
karakteristik yang dapat diamati dan dideteksi secara visual, seperti inkonsistensi
orientasi pose wajah, geometri bagian wajah yang tidak konsisten, serta pola
gerakan pada bagian wajah. Perkembangan teknik pembangkitan deepfake
berikutnya menghasilkan konten deepfake yang terlihat lebih alami. Beragam
teknik ekstraksi fitur berbasis fitur lokal seperti Local Binary Pattern (LBP),
Histogram of Oriented Gradients (HOG), Gray Level Co-occurrence Matrix
(GLCM) digunakan untuk mendeteksi deepfake namun kinerjanya belum cukup
baik. Beragam metode deteksi deepfake berbasis deep feature dikembangkan untuk
mengatasi kekurangan dari metode deteksi deepfake berbasis fitur lokal. Beberapa
metode deteksi deepfake berbasis deep feature seperti Xception dan Mesonet telah
menunjukkan hasil yang cukup menjanjikan. Namun pendekatan ini juga memiliki
kekurangan yang tidak mampu menangkap pola pergerakan obyek pada deepfake.
Pendekatan lainnya dalam deteksi deepfake adalah menggunakan fitur temporal.
Berbeda dengan pendekatan sebelumnya yang berbasis pada fitur spasial, fitur
6
temporal memiliki kemampuan mendeteksi pola pergerakan obyek sehingga fitur
yang dihasilkan lebih kaya dibandingkan fitur spasial.
Tantangan dari penelitian pada bidang deteksi deepfake ini adalah dengan
beragamnya variasi dari konten deepfake mengakibatkan semakin beragam pola
yang harus dikenali. Selain itu, teknik pembangkitan deepfake yang berbasis pada
Generative Adversarial Network dan Deep Autoencoder juga masih terus
berkembang. Hasil pembangkitan citra dan video dari kedua metode tersebut
semakin terlihat nyata dan alami seiring dengan berkembangnya kedua metode
tersebut. Hal tersebut menjadikan para peneliti terus melakukan peningkatan dalam
tingkat kesulitan dataset. Salah satu dataset deepfake yang masih memiliki tingkat
kesulitan tinggi adalah dataset Celeb-DF versi 2. Metode-metode deteksi deepfake
yang ada saat ini belum mampu melakukan deteksi deepfake pada dataset Celeb-
DF versi 2 dengan akurasi yang cukup baik. Dataset Celeb-DF versi 2 digunakan
dalam penelitian ini karena menghadirkan deepfake dengan kualitas visual yang
sangat realistis dan berbagai variasi dalam ukuran, orientasi wajah, pencahayaan,
serta latar belakang, sehingga mereplikasi kondisi dunia nyata secara lebih baik.
Dataset ini dianggap menantang karena mengandung lebih sedikit artifak visual
yang merupakan fitur khas deepfake, dan konten yang dibangkitkan tampak alami,
sehingga meningkatkan kesulitan bagi sistem deteksi untuk membedakan antara
konten asli dan deepfake.
Penelitian disertasi ini menggabungkan pendekatan fitur spasial dan temporal untuk
mendeteksi video deepfake. Fitur spasial diekstraksi menggunakan gabungan dua
model berbasis deep learning yaitu Depthwise Separable Convolution (DSC) dan
Convolution Block Attention Module (CBAM). DSC diadopsi dari arsitektur
Xception yang merupakan baseline dari penelitian ini. CBAM digunakan untuk
memperkaya fitur keluaran dari DSC dengan nilai attention. Arsitektur Video
Vision Transformer (ViViT) digunakan sebagai ekstraktor fitur temporal yang
menganalisis pola temporal antar spatial feature map. ViViT memproses rangkaian
fitur spasial yang dihasilkan oleh gabungan DSC dan CBAM. Luaran dari ViViT
merupakan fitur spasiotemporal yang diklasifikasi menggunakan lapisan MLP.
Metode deteksi deepfake pada penelitian ini juga dikombinasikan dengan facial
landmark sebagai praproses data input video untuk menghasilkan area wajah yang
7
relevan dengan proses deteksi deepfake. Dengan mengkombinasikan modul-modul
tersebut, dihasilkan sebuah sistem deteksi video deepfake yang memiliki kinerja
cukup tinggi. Pada eksperimen deteksi citra deepfake, ekstraksi fitur spasial yang
mengkombinasikan DSC dan CBAM mendapatkan akurasi sebesar 72,78%. Hasil
ini melebihi nilai akurasi beberapa metode lainnya dengan tingkat efisiensi yang
cukup baik, terbukti dari jumlah parameter yang lebih sedikit dibandingkan metode
lain. Pada eksperimen deteksi video deepfake, konfigurasi terbaik untuk ViViT
berhasil mendapatkan akurasi sebesar 80,14%. Dengan melakukan studi ablasi,
penelitian ini berhasil menunjukkan peran masing-masing komponen terhadap
kinerja sistem deteksi deepfake. Ketika semua komponen dikombinasikan, sistem
deteksi deepfake berhasil meraih akurasi sebesar 87,18% pada dataset Celeb-DF
versi 2. Hasil pengujian sistem deteksi deepfake menggunakan data uji mendapat
skor akurasi sebesar 94,83%. Hal ini menunjukkan keberhasilan sistem deteksi
deepfake yang diusulkan dari penelitian ini dan diharapkan dapat
diimplementasikan dan dikembangkan dalam aplikasi di dunia nyata untuk
mencegah efek negatif yang ditimbulkan oleh penyalahgunaan deepfake.