Kamera seringkali digunakan sebagai alat komputer untuk melihat. Komponen
utama dalam computer vision adalah gambar, yang menginterpretasikan gambar
sebagai array dari pixel yang mengandung informasi warna RGB dan alpha setiap
pixel. Sistem kamera stereovision seringkali digunakan untuk mengestimasi jarak
sebuah objek tetapi penggunaan kamera low cost mempengaruhi hasil akurasi dan
presisi dari estimasi jarak objek. Seringkali juga kita mendapatkan kamera low cost
yang kita gunakan tidak identik ataupun tidak sesuai dengan spesifikasi pada kotak
sehingga informasi focal length tidak akurat. Maka dari itu, pada tesis ini penulis
akan menggunakan sebuah metode estimasi jarak objek yang baru untuk kamera
yang heterogen / tidak identik dan tanpa perlu mengetahui spesifikasi bawaan
kamera dengan menggunakan metode object detection Mask R-CNN. Metode Mask
R-CNN tidak hanya mendeteksi objek (object detection) tetapi juga memberikan
daerah kontur arsir pada objek (instance segementation) yang terdeteksi sehingga
titik pusat objek dapat dihitung lebih tepat. Metode ini diuji terhadap 3 objek yang
berada di dalam ruangan yaitu koper (jarak 22 cm), mobil (jarak 280 cm), dan
tumpukan buku (jarak 150 cm). Hasil dari estimasi jarak objek adalah 220,98 cm ?
7,52 cm untuk koper, 253,75 cm ? 9,85 cm untuk mobil dan 148,61 cm ? 4,69 cm
untuk buku. Akurasi dari metode ini adalah 99,56% untuk koper berjarak 220cm,
90,63% untuk mobil berjarak 280cm, dan 99,07% untuk buku.