digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Open In Flip Book Dessy Rondang Monaomi Ringkasan

Deepfake merupakan salah satu jenis modifikasi konten multimedia yang memanfaatkan metode berbasis deep learning, seperti Generative Adversarial Networks dan Deep Autoencoder. Kemampuan deepfake yang semakin sulit dibedakan dari konten asli mendorong adanya kebutuhan terhadap sistem deteksi deepfake yang andal, terutama untuk mencegah penggunaan deepfake dengan tujuan negatif. Pada awal perkembangannya, beberapa konten deepfake memiliki karakteristik yang dapat diamati dan dideteksi secara visual, seperti inkonsistensi orientasi pose wajah, geometri bagian wajah yang tidak konsisten, serta pola gerakan pada bagian wajah. Perkembangan teknik pembangkitan deepfake berikutnya menghasilkan konten deepfake yang terlihat lebih alami. Beragam teknik ekstraksi fitur berbasis fitur lokal seperti Local Binary Pattern (LBP), Histogram of Oriented Gradients (HOG), Gray Level Co-occurrence Matrix (GLCM) digunakan untuk mendeteksi deepfake namun kinerjanya belum cukup baik. Beragam metode deteksi deepfake berbasis deep feature dikembangkan untuk mengatasi kekurangan dari metode deteksi deepfake berbasis fitur lokal. Beberapa metode deteksi deepfake berbasis deep feature seperti Xception dan Mesonet telah menunjukkan hasil yang cukup menjanjikan. Namun pendekatan ini juga memiliki kekurangan yang tidak mampu menangkap pola pergerakan obyek pada deepfake. Pendekatan lainnya dalam deteksi deepfake adalah menggunakan fitur temporal. Berbeda dengan pendekatan sebelumnya yang berbasis pada fitur spasial, fitur 6 temporal memiliki kemampuan mendeteksi pola pergerakan obyek sehingga fitur yang dihasilkan lebih kaya dibandingkan fitur spasial. Tantangan dari penelitian pada bidang deteksi deepfake ini adalah dengan beragamnya variasi dari konten deepfake mengakibatkan semakin beragam pola yang harus dikenali. Selain itu, teknik pembangkitan deepfake yang berbasis pada Generative Adversarial Network dan Deep Autoencoder juga masih terus berkembang. Hasil pembangkitan citra dan video dari kedua metode tersebut semakin terlihat nyata dan alami seiring dengan berkembangnya kedua metode tersebut. Hal tersebut menjadikan para peneliti terus melakukan peningkatan dalam tingkat kesulitan dataset. Salah satu dataset deepfake yang masih memiliki tingkat kesulitan tinggi adalah dataset Celeb-DF versi 2. Metode-metode deteksi deepfake yang ada saat ini belum mampu melakukan deteksi deepfake pada dataset Celeb- DF versi 2 dengan akurasi yang cukup baik. Dataset Celeb-DF versi 2 digunakan dalam penelitian ini karena menghadirkan deepfake dengan kualitas visual yang sangat realistis dan berbagai variasi dalam ukuran, orientasi wajah, pencahayaan, serta latar belakang, sehingga mereplikasi kondisi dunia nyata secara lebih baik. Dataset ini dianggap menantang karena mengandung lebih sedikit artifak visual yang merupakan fitur khas deepfake, dan konten yang dibangkitkan tampak alami, sehingga meningkatkan kesulitan bagi sistem deteksi untuk membedakan antara konten asli dan deepfake. Penelitian disertasi ini menggabungkan pendekatan fitur spasial dan temporal untuk mendeteksi video deepfake. Fitur spasial diekstraksi menggunakan gabungan dua model berbasis deep learning yaitu Depthwise Separable Convolution (DSC) dan Convolution Block Attention Module (CBAM). DSC diadopsi dari arsitektur Xception yang merupakan baseline dari penelitian ini. CBAM digunakan untuk memperkaya fitur keluaran dari DSC dengan nilai attention. Arsitektur Video Vision Transformer (ViViT) digunakan sebagai ekstraktor fitur temporal yang menganalisis pola temporal antar spatial feature map. ViViT memproses rangkaian fitur spasial yang dihasilkan oleh gabungan DSC dan CBAM. Luaran dari ViViT merupakan fitur spasiotemporal yang diklasifikasi menggunakan lapisan MLP. Metode deteksi deepfake pada penelitian ini juga dikombinasikan dengan facial landmark sebagai praproses data input video untuk menghasilkan area wajah yang 7 relevan dengan proses deteksi deepfake. Dengan mengkombinasikan modul-modul tersebut, dihasilkan sebuah sistem deteksi video deepfake yang memiliki kinerja cukup tinggi. Pada eksperimen deteksi citra deepfake, ekstraksi fitur spasial yang mengkombinasikan DSC dan CBAM mendapatkan akurasi sebesar 72,78%. Hasil ini melebihi nilai akurasi beberapa metode lainnya dengan tingkat efisiensi yang cukup baik, terbukti dari jumlah parameter yang lebih sedikit dibandingkan metode lain. Pada eksperimen deteksi video deepfake, konfigurasi terbaik untuk ViViT berhasil mendapatkan akurasi sebesar 80,14%. Dengan melakukan studi ablasi, penelitian ini berhasil menunjukkan peran masing-masing komponen terhadap kinerja sistem deteksi deepfake. Ketika semua komponen dikombinasikan, sistem deteksi deepfake berhasil meraih akurasi sebesar 87,18% pada dataset Celeb-DF versi 2. Hasil pengujian sistem deteksi deepfake menggunakan data uji mendapat skor akurasi sebesar 94,83%. Hal ini menunjukkan keberhasilan sistem deteksi deepfake yang diusulkan dari penelitian ini dan diharapkan dapat diimplementasikan dan dikembangkan dalam aplikasi di dunia nyata untuk mencegah efek negatif yang ditimbulkan oleh penyalahgunaan deepfake.