digilib@itb.ac.id +62 812 2508 8800

Berbagai metode digunakan pada aplikasi visi komputer untuk mengidentifikasi individu, termasuk penggunaan pengenalan wajah sebagai fitur visual manusia yang berguna dalam penjejakan atau pencarian seseorang. Meskipun demikian, terdapat keterbatasan dalam sistem penjejakan yang hanya mengandalkan informasi dari wajah, terutama ketika menghadapi tantangan seperti oklusi, citra yang buram, atau posisi wajah yang menghadap ke belakang kamera. Dalam kondisi demikian, sistem penjejakan menghadapi kesulitan untuk melakukan pengenalan wajah yang tepat. Oleh karena itu, dalam penelitian ini, selain fitur visual wajah, deskripsi fitur visual tubuh lainnya ditambahkan untuk mengatasi masalah tersebut. Dalam situasi di mana wajah yang dicari tidak dapat ditemukan oleh sistem, metode hibrida CNN (Convolutional Neural Network) dan LSTM (Long Short-Term Memory) dapat membantu dengan pengenalan multifitur visual tubuh untuk mempersempit ruang dan mempercepat proses pencarian. Hasil penelitian menunjukkan bahwa kombinasi metode CNN+LSTM untuk pengenalan tubuh menghasilkan nilai akurasi, recall, presisi, dan skor F1 yang lebih tinggi (masing-masing mencapai 89.20%, 87.36%, 91.02%, dan 88.43%) dibandingkan dengan metode tunggal CNN (masing-masing mencapai 88.84%, 74.00%, 67.00%, dan 69.00%). Namun, kombinasi kedua fitur visual ini memerlukan komputasi yang tinggi, sehingga diperlukan sistem penjejak yang mampu mereduksi beban komputasi serta memprediksi lokasi target. Ketika objek yang dicari telah ditemukan oleh sistem multifitur visual, penjejak ini dapat mempertahankan informasi posisi objek dari bingkai ke bingkai berikutnya. Hal ini dapat menghindari kebutuhan untuk mengidentifikasi objek di setiap bingkai dan secara signifikan dapat menghemat waktu komputasi. Sistem penjejak dengan metode FOAPF (Firefly Optimization Algorithm-based Particle Filter) dan metode fitur mendalam berbasis KCF (Deep Kernelized Correlation Filters) telah menunjukkan peningkatan akurasi penjejakan objek pada berbagai lingkungan citra yang berbeda. Metode FOAPF menghasilkan nilai kesalahan 8.80 piksel dengan distribusi 50 partikel yang telah berhasil mencapai nilai kesalahan terkecil pada video resolusi rendah dan latar belakang citra yang sederhana. Metode ini cocok digunakan ketika lingkungan memiliki tingkat kompleksitas yang lebih rendah. Sementara itu, metode KCF dengan fitur v mendalam berbasis pembelajaran alih, lebih efektif dalam menghadapi lingkungan dengan latar belakang citra yang kompleks dan menghasilkan nilai kesalahan sebesar 10.08 piksel. Dalam penelitian ini, pemilihan metode penjejakan mempertimbangkan skor kepercayaan yang dihasilkan oleh sistem deteksi wajah dan tubuh agar dapat beroperasi secara waktu nyata. Selanjutnya, algoritma Q-Learning dimanfaatkan untuk membuat keputusan optimal dalam melakukan penjejakan objek secara otomatis di lingkungan yang dinamis. Sistem mempertimbangkan beberapa faktor seperti fitur visual wajah dan tubuh, lokasi objek, dan kondisi lingkungan untuk membuat keputusan terbaik. Tujuannya adalah agar efisiensi dan akurasi penjejakan objek yang dijejaki dapat meningkat. Berdasarkan eksperimen yang dilakukan disimpulkan bahwa sistem dapat menyesuaikan tindakan yang diambil dalam menghadapi perubahan lingkungan dengan hasil yang lebih baik. Hal ini ditunjukkan oleh tingkat akurasi yang mencapai 91.5% dan rata-rata 50 fps pada 5 video yang berbeda, serta dataset video benchmark dengan akurasi sebesar 84% dan rata-rata kesalahan sebesar 11.15 piksel. Hasil ini mengindikasikan tingkat akurasi yang sangat baik dalam penjejakan pergerakan manusia dengan waktu nyata menggunakan metode yang diusulkan.