digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Dalam beberapa tahun terakhir, telah dikembangkan model-model dalam bidang pemisahan sumber suara musik. Model yang menghasilkan kinerja terbaik saat ini adalah model Hybrid Transformer Demucs (HT Demucs) dan Band-Split RNN (BSRNN). Penelitian terbaru menunjukkan bahwa model pre-trained HT Demucs multi-target mampu memisahkan enam sumber suara (drum, bas, gitar, piano, vokal, dan other), diujikan dengan menggunakan dataset MoisesDB namun mendapatkan skor yang relatif rendah pada sumber suara gitar, piano, dan other dibandingkan dengan sumber suara lainnya yang diukur dengan metrik utterance- level Signal-to-Distortion (uSDR). Namun, belum ada penelitian yang menunjukkan kinerja model BSRNN dalam pemisahan enam sumber suara tersebut. Tugas akhir ini bertujuan untuk menginvestigasi kinerja model BSRNN dan HT Demucs single-target dalam pemisahan enam sumber suara. Untuk itu, dilakukan pengembangan model BSRNN dan HT Demucs single-target untuk pemisahan enam sumber suara dengan menggunakan dataset MoisesDB. Kedua model ini kemudian dievaluasi dan dianalisis untuk menentukan model terbaik dalam pemisahan enam sumber suara. Hasil eksperimen menunjukkan bahwa model HT Demucs unggul dalam pemisahan seluruh sumber suara dibandingkan model BSRNN yang diukur pada metrik uSDR dan cSDR dengan rata-rata secara berurutan 6,26 dB dan 5,88 dB untuk model HT Demucs, sedangkan model BSRNN mencapai skor 5,52 dB dan 5,38 dB. Selain itu, model HT Demucs yang dilatih melampaui kinerja model pre-trained HT Demucs pada sumber suara piano dan other dengan perbedaan secara berurutan 1 dB dan 0,3 dB.