Pelabelan audio (audio tagging) merupakan proses memberikan kelas mengenai
jenis-jenis bunyi yang terdapat pada sebuah klip audio. Selain audio tagging,
pelabelan audio juga dapat menyertakan informasi temporal mengenai waktu jenis
bunyi tersebut mulai dan berakhir. Sistem ini disebut sistem pendeteksi kemunculan
jenis bunyi (sound event detection). Penelitian ini membahas mengenai
implementasi audio tagging dan sound event detection pada suara-suara yang
terdapat pada rekaman audio. Proses penelitian yang dilakukan dibagi menjadi
proses penentuan jenis label, pengumpulan data, ekstraksi fitur, dan klasifikasi.
Proses penentuan jenis label merupakan proses untuk menentukan jenis label yang
akan digunakan. Proses pengumpulan data memanfaatkan data rapat yang dilabeli
manual menggunakan Audacity dan yang didapatkan dari Audioset. Proses ekstraksi
fitur merupakan mengekstraksi fitur dari audio yang sudah dikumpulkan sehingga
dapat dijadikan data latih, data validasi, dan data tes. Teknik yang
diimplementasikan adalah log-mel energy. Proses klasifikasi merupakan proses
pembelajaran mesin untuk mengenali jenis-jenis bunyi serta informasi temporal
dari jenis bunyi tersebut. Model yang digunakan untuk proses klasifikasi
menggunakan topologi CNN (Convolutional Neural Network) dan CRNN
(Convolutional Recurrent Neural Network). Hasil dari penelitian menunjukkan
sebuah sistem pendeteksi jenis bunyi yang memiliki nilai F1-score sebesar 0,906
untuk klasifikasi jenis bunyi ucapan dan non-ucapan serta 0,553 untuk klasifikasi
bunyi multi label.