Kecepatan dan akurasi pendeteksian objek merupakan aspek penting pada sistem
persepsi untuk kendaraan otonom. Peningkatan performa kecepatan pendeteksian
dapat membantu model detektor objek mencapai kinerja yang mendekati waktu
nyata, sementara peningkatan performa akurasi dapat menambah keandalan
detektor objek di berbagai skenario. Keseimbangan antara kedua peningkatan ini
dapat meningkatkan keselamatan kendaraan otonom, terutama dalam kondisi lalu
lintas yang padat dan beragam seperti di Indonesia. Studi ini mengembangkan
model detektor objek menggunakan dataset lokal untuk mencerminkan kondisi
dunia nyata. Peningkatan performa frame per detik (fps) dan mean Average
Precision (mAP@50-95) yang seimbang didapat melalui model deep learning
YOLOv5 yang dimodifikasi. Peningkatan utama dari model ini mencakup integrasi
lapisan GhostConv dan Transformer ke dalam arsitektur YOLOv5, yang kemudian
modifikasi ini disebut sebagai YOLOv5s-GT, serta penerapan augmentasi gambar
dengan berbagai skenario pada data pelatihan. Hasil eksperimen menunjukkan
bahwa YOLOv5 yang dimodifikasi dapat mengungguli model dasar dalam metrik
fps dan mAP, yaitu mencapai 82,6 fps dan 80,1% mAP@50-95, dibandingkan
dengan performa model dasarnya yang mencapai 75,8 fps dan 77,7% mAP@50-95.