Berbagai metode digunakan pada aplikasi visi komputer untuk mengidentifikasi
individu, termasuk penggunaan pengenalan wajah sebagai fitur visual manusia
yang berguna dalam penjejakan atau pencarian seseorang. Meskipun demikian,
terdapat keterbatasan dalam sistem penjejakan yang hanya mengandalkan informasi
dari wajah, terutama ketika menghadapi tantangan seperti oklusi, citra yang buram,
atau posisi wajah yang menghadap ke belakang kamera. Dalam kondisi demikian,
sistem penjejakan menghadapi kesulitan untuk melakukan pengenalan wajah yang
tepat.
Oleh karena itu, dalam penelitian ini, selain fitur visual wajah, deskripsi fitur visual
tubuh lainnya ditambahkan untuk mengatasi masalah tersebut. Dalam situasi di
mana wajah yang dicari tidak dapat ditemukan oleh sistem, metode hibrida CNN
(Convolutional Neural Network) dan LSTM (Long Short-Term Memory) dapat
membantu dengan pengenalan multifitur visual tubuh untuk mempersempit ruang
dan mempercepat proses pencarian.
Hasil penelitian menunjukkan bahwa kombinasi metode CNN+LSTM untuk
pengenalan tubuh menghasilkan nilai akurasi, recall, presisi, dan skor F1 yang lebih
tinggi (masing-masing mencapai 89.20%, 87.36%, 91.02%, dan 88.43%)
dibandingkan dengan metode tunggal CNN (masing-masing mencapai 88.84%,
74.00%, 67.00%, dan 69.00%). Namun, kombinasi kedua fitur visual ini
memerlukan komputasi yang tinggi, sehingga diperlukan sistem penjejak yang
mampu mereduksi beban komputasi serta memprediksi lokasi target. Ketika objek
yang dicari telah ditemukan oleh sistem multifitur visual, penjejak ini dapat
mempertahankan informasi posisi objek dari bingkai ke bingkai berikutnya. Hal ini
dapat menghindari kebutuhan untuk mengidentifikasi objek di setiap bingkai dan
secara signifikan dapat menghemat waktu komputasi.
Sistem penjejak dengan metode FOAPF (Firefly Optimization Algorithm-based
Particle Filter) dan metode fitur mendalam berbasis KCF (Deep Kernelized
Correlation Filters) telah menunjukkan peningkatan akurasi penjejakan objek pada
berbagai lingkungan citra yang berbeda. Metode FOAPF menghasilkan nilai
kesalahan 8.80 piksel dengan distribusi 50 partikel yang telah berhasil mencapai
nilai kesalahan terkecil pada video resolusi rendah dan latar belakang citra yang
sederhana. Metode ini cocok digunakan ketika lingkungan memiliki tingkat
kompleksitas yang lebih rendah. Sementara itu, metode KCF dengan fitur
v
mendalam berbasis pembelajaran alih, lebih efektif dalam menghadapi lingkungan
dengan latar belakang citra yang kompleks dan menghasilkan nilai kesalahan
sebesar 10.08 piksel. Dalam penelitian ini, pemilihan metode penjejakan
mempertimbangkan skor kepercayaan yang dihasilkan oleh sistem deteksi wajah
dan tubuh agar dapat beroperasi secara waktu nyata.
Selanjutnya, algoritma Q-Learning dimanfaatkan untuk membuat keputusan
optimal dalam melakukan penjejakan objek secara otomatis di lingkungan yang
dinamis. Sistem mempertimbangkan beberapa faktor seperti fitur visual wajah dan
tubuh, lokasi objek, dan kondisi lingkungan untuk membuat keputusan terbaik.
Tujuannya adalah agar efisiensi dan akurasi penjejakan objek yang dijejaki dapat
meningkat. Berdasarkan eksperimen yang dilakukan disimpulkan bahwa sistem
dapat menyesuaikan tindakan yang diambil dalam menghadapi perubahan
lingkungan dengan hasil yang lebih baik. Hal ini ditunjukkan oleh tingkat akurasi
yang mencapai 91.5% dan rata-rata 50 fps pada 5 video yang berbeda, serta dataset
video benchmark dengan akurasi sebesar 84% dan rata-rata kesalahan sebesar 11.15
piksel. Hasil ini mengindikasikan tingkat akurasi yang sangat baik dalam
penjejakan pergerakan manusia dengan waktu nyata menggunakan metode yang
diusulkan.