digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Irvan Ariyanto
PUBLIC Irwan Sofiyan

Penelitian terkait klasifikasi mood lagu bahasa Indonesia telah dilakukan oleh peneliti terdahulu. Namun penelitian tersebut hanya melakukan klasifikasi single label, dimana faktanya musik dapat terdiri dari lebih dari satu label mood. Klasifikasi multilabel mood musik juga telah dilakukan oleh peneliti terdahulu, namun penelitian tersebut hanya menggunakan fitur audio. Penelitian ini akan melakukan klasifikasi multilabel lagu bahasa Indonesia dengan fitur lirik saja. Penelitian pada klasifikasi mood single label menunjukkan hasil terbaik hanya dengan fitur lirik saja, lebih unggul dibandingkan dengan fitur audio dan kombinasi antara audio dan lirik. Lirik lagu memiliki berbagai ragam gaya bahasa. Lagu yang disisipkan dengan gaya bahasa sarkasme membuat perubahan makna dan kesan lagu. Permasalahan tersebut dapat ditangani dengan adanya deteksi sarkasme. Penelitian ini membangun dataset mood lagu Bahasa Indonesia. Dataset diperoleh dengan melakukan crawling. Dataset yang sudah diperoleh sebesar 1000 lagu kemudian dilakukan anotasi. Anotasi perlu dilakukan sebelum data dapat digunakan untuk pembelajaran mesin. Anotator dibagi manjadi dua kelompok. Tiap kelompok terdiri dari 3 anotator dimana masing-masing kelompok akan menganotasi 500 lagu. Lagu akan diberi label mood yang terdiri dari sad, happy, angry, relaxed. Analisis reliabilitas antar annotator untuk skenario multilabel dilakukan dengan menggunakan matrik Krippendorff. Nilai Krippendorff’s alpha masing-masing kelompok berada di bawah 0,667 yang dapat diinterpretasikan realibilitas antar penilai dalam anotasi rendah. Hal ini menjadi tantangan membuat model klasifikasi mood, karena kesepakatan antar manusia saja masih rencah. Penelitian ini menggunakan transformasi masalah untuk melakukan klasifikasi mood multilabel berbasis fitur lirik lagu Bahasa Indonesia. Metode yang digunakan dalam proses pengembangan model klasifikasi multilabel adalah Binary Relevance (BR) dan Label Powerset (LP). Penelitian ini juga melibatkan empat teknik ekstraksi fitur yaitu stylistic, TF-IDF, fasttext, dan sarkasme. Fitur sarkasme dilakukan dengan membangun model sarcasm detection. Proses pembangunan model sarkasme dimulai dengan membangun dataset sarkasme yang diperoleh dari website yang menyediakan kalimat sarkasme dan kalimat tidak sarkasme. Model sarkasme dibangun dengan menggunakan fitur CountVectorizer yang mengubah fitur teks menjadi sebuah representasi vector. Classifier yang digunakan untuk model sarkasme adalah SVC (Support Vector Classifier). Kinerja dari model sarkasme ini mendapat nilai akurasi sebesar 95%. Pengukuran evaluasi model mood classifier menggunakan metode Example Based Accuracy. Model terbaik diperoleh melalui kombinasi metode fasttext, Binary relevance dan SVC dengan akurasi 0,804. Penerapan fitur sarkame dengan model sarcasm detection pada klasifikasi mood multilabel berbasis fitur lirik lagu Bahasa Indonesia tidak berhasil meningkatkan kinerja, tetapi lebih rendah.