Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Dalam beberapa tahun terakhir, telah dikembangkan model-model dalam bidang
pemisahan sumber suara musik. Model yang menghasilkan kinerja terbaik saat ini
adalah model Hybrid Transformer Demucs (HT Demucs) dan Band-Split RNN
(BSRNN). Penelitian terbaru menunjukkan bahwa model pre-trained HT Demucs
multi-target mampu memisahkan enam sumber suara (drum, bas, gitar, piano,
vokal, dan other), diujikan dengan menggunakan dataset MoisesDB namun
mendapatkan skor yang relatif rendah pada sumber suara gitar, piano, dan other
dibandingkan dengan sumber suara lainnya yang diukur dengan metrik utterance-
level Signal-to-Distortion (uSDR). Namun, belum ada penelitian yang
menunjukkan kinerja model BSRNN dalam pemisahan enam sumber suara
tersebut. Tugas akhir ini bertujuan untuk menginvestigasi kinerja model BSRNN
dan HT Demucs single-target dalam pemisahan enam sumber suara.
Untuk itu, dilakukan pengembangan model BSRNN dan HT Demucs single-target
untuk pemisahan enam sumber suara dengan menggunakan dataset MoisesDB.
Kedua model ini kemudian dievaluasi dan dianalisis untuk menentukan model
terbaik dalam pemisahan enam sumber suara. Hasil eksperimen menunjukkan
bahwa model HT Demucs unggul dalam pemisahan seluruh sumber suara
dibandingkan model BSRNN yang diukur pada metrik uSDR dan cSDR dengan
rata-rata secara berurutan 6,26 dB dan 5,88 dB untuk model HT Demucs, sedangkan
model BSRNN mencapai skor 5,52 dB dan 5,38 dB. Selain itu, model HT Demucs
yang dilatih melampaui kinerja model pre-trained HT Demucs pada sumber suara
piano dan other dengan perbedaan secara berurutan 1 dB dan 0,3 dB.