Perkembangan teknologi deepfake berbasis kecerdasan buatan, seperti Generative Adversarial
Networks (GAN) dan autoencoders, dapat menghasilkan konten multimedia yang sangat
realistis, namun rentan disalahgunakan untuk tujuan yang negatif, seperti penyebaran informasi
palsu, penipuan finansial, dan manipulasi konten pornografi. Ancaman ini mendorong
pengembangan metode deteksi deepfake yang canggih untuk menjaga keaslian informasi digital.
Namun, pendekatan deteksi berbasis Vision Transformer (ViT) sering kali tidak efisien
dikarenakan mekanisme self-attention yang menghasilkan kompleksitas komputasi kuadratik,
O(n²). Penelitian sebelumnya berfokus pada pengoptimalan arsitektur model, seperti pengurangan
Transformer layers atau attention heads, namun minim eksplorasi pada efisiensi melalui
pra-pemrosesan data input. Penelitian ini mengusulkan kerangka kerja Hybrid Dynamic
Patch Selection (HDPS), sebuah pendekatan multi-tahap yang meningkatkan efisiensi deteksi
deepfake dengan menyeleksi patch wajah paling informatif secara dinamis sebelum dianalisis
oleh Transformer. HDPS mengintegrasikan deteksi wajah, seleksi patch berbasis kontras
visual(saliency) dan artefak digital(CNN), serta analisis kontekstual Transformer untuk menghasilkan
klasifikasi yang akurat. Penelitian ini bertujuan membuktikan bahwa pra-pemrosesan
cerdas dapat menjadi alternatif efektif untuk mencapai deteksi deepfake yang efisien dan akurat,
sehingga berkontribusi pada pengembangan sistem deteksi yang lebih praktis untuk penerapan
skala besar.
Perpustakaan Digital ITB