digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Open In Flip Book Dessy Rondang Monaomi

Lirik lagu memainkan peran penting dalam musik, memberikan makna dan emosi yang mendalam kepada pendengar. Namun, penyelarasan lirik dengan ritme musik merupakan tantangan yang signifikan. Penelitian ini fokus pada pengembangan model penyelarasan lirik lagu berbahasa Indonesia menggunakan pendekatan kecerdasan buatan. Penelitian ini mengadopsi teknik forced alignment yang telah banyak digunakan dalam penyelarasan antara hasil automatic speech recognition dengan audio. Forced alignment merupakan teknik yang digunakan dalam meletakkan fonem, kata, maupun frasa ke garis waktu yang sesuai. Namun, penerapan teknik ini dalam domain musik dan bahasa Indonesia masih sangat terbatas. Oleh karena itu, penelitian ini bertujuan untuk mengeksplorasi bagaimana teknologi pemrosesan suara dapat digunakan untuk menyelaraskan lirik teks dengan ritme musikal berbahasa Indonesia. Penelitian ini melibatkan beberapa tahap, dimulai dari web scraping untuk pengumpulan dataset lagu berbahasa Indonesia, hingga penggunaan metodologi SEMMA (Sample, Explore, Modify, Model, Assess) untuk pengembangan model forced alignment. Hasil penelitian menunjukkan bahwa pendekatan yang diajukan, yaitu translasi fonem dan transfer learning dengan model Hidden Markov Model - Gaussian Mixture Model (HMM-GMM), memberikan hasil yang lebih baik dibandingkan model forced alignment yang umum digunakan seperti NeMo Forced Aligner (NFA) dan Massively Multilingual Speech – Forced Alignment (MMS-FA). Pada metrik Mean Average Error (MAE), model yang diajukan mencapai nilai rata- rata 947.86 milisekon, sementara pada metrik Segment Error Rate (SER), model mencapai hasil 0.0016 (~0.1%). Hasil ini menunjukkan bahwa model yang dikembangkan dapat menyelaraskan lirik lagu berbahasa Indonesia dengan lebih akurat dibandingkan dengan model NFA (MAE=1742.46 milisekon, SER=0.0740) dan model MMS-FA (MAE=1945.82 milisekon, SER=0.1609).