Pada masa dimana banyak terpasang CCTV guna memantau aktivitas pada tempattempat umum, fasilitas tersebut tentu dapat memberikan rasa aman karena adanya
pengawasan oleh pihak yang berwajib. Namun pengawasan yang dilakukan
manusia menjadi sulit dilakukan mengingat banyaknya lokasi yang perlu untuk
diawasi terus menerus. Untuk dapat mempermudah pengawasan, sistem pendeteksi
aktivitas kejahatan, terutama dalam hal kekerasan, dapat digunakan untuk
membantu pengawasan. Model spatiotemporal action localization merupakan suatu
model yang dapat digunakan untuk mendeteksi dan memberi peringatan kepada
pengawas akan terjadinya tindak kekerasan yang tertangkap oleh CCTV. Penelitian
ini berfokus untuk menciptakan model yang dapat menjadi dasar pengembangan
suatu sistem pendeteksi kekerasan fisik dengan efisien. Efisiensi menjadi sangat
penting ketika suatu model hendak diterapkan untuk memroses banyak video yang
dihasilkan dari banyak CCTV. Menggunakan teknik-teknik konvolusi tiga dimensi
yang efisien penggunaan sumber daya memori dapat diperkecil namun tetap
mempertahankan akurasi yang layak. Model juga menggunakan teknik multiplescale prediction yang mampu meningkatkan kemampuan model untuk mendeteksi
benda-benda yang kecil, seperti misalnya senjata api dan senjata tajam. Hasil
percobaan dengan dataset UCF101-24 menunjukan bahwa model mencapai skor
frame-mAP 67,29% dengan hanya menggunakan 22,84 juta parameter.