digilib@itb.ac.id +62 812 2508 8800

Pelabelan audio (audio tagging) merupakan proses memberikan kelas mengenai jenis-jenis bunyi yang terdapat pada sebuah klip audio. Selain audio tagging, pelabelan audio juga dapat menyertakan informasi temporal mengenai waktu jenis bunyi tersebut mulai dan berakhir. Sistem ini disebut sistem pendeteksi kemunculan jenis bunyi (sound event detection). Penelitian ini membahas mengenai implementasi audio tagging dan sound event detection pada suara-suara yang terdapat pada rekaman audio. Proses penelitian yang dilakukan dibagi menjadi proses penentuan jenis label, pengumpulan data, ekstraksi fitur, dan klasifikasi. Proses penentuan jenis label merupakan proses untuk menentukan jenis label yang akan digunakan. Proses pengumpulan data memanfaatkan data rapat yang dilabeli manual menggunakan Audacity dan yang didapatkan dari Audioset. Proses ekstraksi fitur merupakan mengekstraksi fitur dari audio yang sudah dikumpulkan sehingga dapat dijadikan data latih, data validasi, dan data tes. Teknik yang diimplementasikan adalah log-mel energy. Proses klasifikasi merupakan proses pembelajaran mesin untuk mengenali jenis-jenis bunyi serta informasi temporal dari jenis bunyi tersebut. Model yang digunakan untuk proses klasifikasi menggunakan topologi CNN (Convolutional Neural Network) dan CRNN (Convolutional Recurrent Neural Network). Hasil dari penelitian menunjukkan sebuah sistem pendeteksi jenis bunyi yang memiliki nilai F1-score sebesar 0,906 untuk klasifikasi jenis bunyi ucapan dan non-ucapan serta 0,553 untuk klasifikasi bunyi multi label.