digilib@itb.ac.id +62 812 2508 8800

Pada masa dimana banyak terpasang CCTV guna memantau aktivitas pada tempattempat umum, fasilitas tersebut tentu dapat memberikan rasa aman karena adanya pengawasan oleh pihak yang berwajib. Namun pengawasan yang dilakukan manusia menjadi sulit dilakukan mengingat banyaknya lokasi yang perlu untuk diawasi terus menerus. Untuk dapat mempermudah pengawasan, sistem pendeteksi aktivitas kejahatan, terutama dalam hal kekerasan, dapat digunakan untuk membantu pengawasan. Model spatiotemporal action localization merupakan suatu model yang dapat digunakan untuk mendeteksi dan memberi peringatan kepada pengawas akan terjadinya tindak kekerasan yang tertangkap oleh CCTV. Penelitian ini berfokus untuk menciptakan model yang dapat menjadi dasar pengembangan suatu sistem pendeteksi kekerasan fisik dengan efisien. Efisiensi menjadi sangat penting ketika suatu model hendak diterapkan untuk memroses banyak video yang dihasilkan dari banyak CCTV. Menggunakan teknik-teknik konvolusi tiga dimensi yang efisien penggunaan sumber daya memori dapat diperkecil namun tetap mempertahankan akurasi yang layak. Model juga menggunakan teknik multiplescale prediction yang mampu meningkatkan kemampuan model untuk mendeteksi benda-benda yang kecil, seperti misalnya senjata api dan senjata tajam. Hasil percobaan dengan dataset UCF101-24 menunjukan bahwa model mencapai skor frame-mAP 67,29% dengan hanya menggunakan 22,84 juta parameter.