Lirik lagu memainkan peran penting dalam musik, memberikan makna dan emosi
yang mendalam kepada pendengar. Namun, penyelarasan lirik dengan ritme musik
merupakan tantangan yang signifikan. Penelitian ini fokus pada pengembangan
model penyelarasan lirik lagu berbahasa Indonesia menggunakan pendekatan
kecerdasan buatan.
Penelitian ini mengadopsi teknik forced alignment yang telah banyak digunakan
dalam penyelarasan antara hasil automatic speech recognition dengan audio.
Forced alignment merupakan teknik yang digunakan dalam meletakkan fonem,
kata, maupun frasa ke garis waktu yang sesuai. Namun, penerapan teknik ini dalam
domain musik dan bahasa Indonesia masih sangat terbatas. Oleh karena itu,
penelitian ini bertujuan untuk mengeksplorasi bagaimana teknologi pemrosesan
suara dapat digunakan untuk menyelaraskan lirik teks dengan ritme musikal
berbahasa Indonesia.
Penelitian ini melibatkan beberapa tahap, dimulai dari web scraping untuk
pengumpulan dataset lagu berbahasa Indonesia, hingga penggunaan metodologi
SEMMA (Sample, Explore, Modify, Model, Assess) untuk pengembangan model
forced alignment. Hasil penelitian menunjukkan bahwa pendekatan yang diajukan,
yaitu translasi fonem dan transfer learning dengan model Hidden Markov Model -
Gaussian Mixture Model (HMM-GMM), memberikan hasil yang lebih baik
dibandingkan model forced alignment yang umum digunakan seperti NeMo Forced
Aligner (NFA) dan Massively Multilingual Speech – Forced Alignment (MMS-FA).
Pada metrik Mean Average Error (MAE), model yang diajukan mencapai nilai rata-
rata 947.86 milisekon, sementara pada metrik Segment Error Rate (SER), model
mencapai hasil 0.0016 (~0.1%). Hasil ini menunjukkan bahwa model yang
dikembangkan dapat menyelaraskan lirik lagu berbahasa Indonesia dengan lebih
akurat dibandingkan dengan model NFA (MAE=1742.46 milisekon, SER=0.0740)
dan model MMS-FA (MAE=1945.82 milisekon, SER=0.1609).