komponen yang sangat krusial untuk menjamin keselamatan. Citra hasil
kamera stereo yang diproses dengan metode stereo matching menjadi salah
satu opsi metode yang dapat dieksplorasi terutama akibat harganya yang
relatif terjangkau. Namun demikian, keterbatasan perangkat komputasi
yang disematkan kendaraan otonom membuat algoritma harus disusun
seefisien mungkin agar dapat berjalan secara real time. Oleh karena itu,
tesis ini membahas pengembangan arsitektur stereo matching efisien untuk
mengekstrak informasi tiga dimensi citra pada persepsi kendaraan otonom.
Arsitektur deep learning berbasis LightStereo digunakan untuk menyusun
metode stereo matching efisien. Terdapat tiga usulan untuk meningkatkan
kecepatan komputasi dengan tetap menjaga akurasi arsitektur: Kombinasi
agregasi dua dimensi dan tiga dimensi efisien untuk menangkap hubungan
disparitas secara lokal dan global dari cost volume, Agregasi resolusi tinggi
dan rendah efisien secara paralel untuk meningkatkan kemampuan estimasi
disparitas baik pada bagian citra bertekstur maupun kurang bertekstur, dan
usulan LinearLog loss untuk mengurangi rerata eror disparitas keseluruhan.
Dengan usulan tersebut, disusun arsitektur efisien EFSNet yang memiliki
waktu inferensi kurang dari 20 milidetik dengan tetap mempertahankan nilai
end point error kurang dari 0.72 piksel pada dataset SceneFlow. Hasil ini
membuat arsitektur yang diajukan termasuk dalam arsitektur paling efisien
pada benchmark tersebut. Terakhir, tesis ini juga mengeksplorasi hasil
persepsi tiga dimensi dari arsitektur yang diusulkan pada perangkat embedded.
Hasilnya, secara rata-rata, algoritma dapat melakukan inferensi citra setereo
dalam waktu 101 milidetik dengan eror estimasi jarak objek sebesar 0.933 m.
Perpustakaan Digital ITB