Mekanisme ekstraksi jalan secara otomatis menggunakan deep learning
memungkinkan ekstraksi jalan yang lebih murah dan cepat dibandingkan dengan
cara manual, dengan hasil yang lebih baik dari metode-metode semi-otomatis.
Namun, hasil yang didapatkan dari metode-metode ini masih belum cukup baik
untuk aplikasi nyata, dengan akurasi yang masih cukup rendah. Penelitian ini
meningkatkan performa mekanisme ekstraksi otomatis dengan memperkenalkan
jaringan attention multi-axis multi-scale untuk ekstraksi jalan, dengan fokus utama
untuk menangkap ketergantungan yang lebih luas. Arsitektur ini terdiri dari struktur
hierarki encoder-decoder, memanfaatkan sparse local attention dan dilated global
attention yang diposisikan secara sekuensial, masing-masing disertai dengan
ukuran patch yang disesuaikan pada setiap tahap. Tingkat pelebaran yang berbeda
untuk grid attention diperkenalkan pada tahap jaringan yang lebih dangkal, yang
secara efektif memperkuat ketergantungan jarak jauh. Bias induktif implisit dengan
conditional positional encoder dalam jaringan feed-forward dan relative positional
bias dalam model attention diintegrasikan untuk meningkatkan efisiensi positional
encoding dan memperkenalkan bias pada patch lokal. Pada fase decoding,
digunakan strategi agregasi berbasis penjumlahan, dilengkapi dengan decoder yang
lebih kompleks untuk memfasilitasi pemulihan informasi spasial yang lebih rumit.
Model yang diusulkan telah melalui validasi eksperimental pada dataset
DeepGlobe, dengan hasil yang dapat dibandingkan dengan beberapa jaringan
ternama. Selain itu, studi ablasi yang komprehensif telah dilakukan, menjelaskan
kontribusi modul yang tertanam di dalam arsitektur, dan menawarkan wawasan
tentang strategi fine tuning yang lebih cermat.