Pengembangan akselerator hardware untuk deep learning semakin pesat dilakukan dengan adanya
tuntutan akan fleksibilitas untuk diterapkan ke berbagai arsitektur deep learning. Akselerator yang
banyak dipasarkan saat ini adalah akselerator dengan arsitektur berbasis GPU dimana pengembang
menemui cukup banyak kekurangan karena konsumsi daya yang tinggi. Dengan adanya
permasalahan ini, diperlukan pengembangan lebih lanjut untuk akselerator hardware yang dapat
diterapkan ke beberapa model arsitektur deep learning CNN.
Pada penelitian ini, penulis akan merancang akselerator untuk diterapkan pada FPGA. Akselerator
yang dibangun akan digunakan untuk menangani proses pada layer konvolusi pada Convolutional
Neural Network(CNN). Proses yang berjalan pada sistem dikerjakan dengan proses paralel
menggunakan beberapa processing element sekaligus. Arsitektur bekerja untuk input data gambar
dengan resolusi 512 × 512 pixel yang terpecah menjadi empat segmen dengan resolusi
256 × 256 pixel. Sistem yang dirancang dengan target clock base 10 ns mampu memberikan
troughput sebesar 100 Mbyte/s. Iteration time dari akselerator untuk memproses data adalah
670,980 ns per segmen dengan latency yang sistem sebesar 7930 ns untuk ukuran kernel 3 × 3.
Sementara untuk kernel dengan ukuran 2 × 2 Iteration time pada sistem sebesar 660,750 ns dengan
latency sebesar 7930 ns. Penggunaan akselerator untuk membantu proses konvolusi pada sistem
terbukti dapat mempercepat waktu proses dengan perbedaan waktu yang sangat signifikan.
Perpustakaan Digital ITB