Transfer gaya teks (TST) merupakan tugas dalam pemrosesan bahasa alami yang bertujuan mengubah gaya bahasa suatu teks tanpa mengubah konteks yang terkandung di dalamnya. Tantangan utama dalam TST adalah mencapai keseimbangan antara perubahan gaya yang diinginkan dan mempertahankan konteks asli teks. Pendekatan berbasis deep learning membutuhkan jumlah data paralel yang besar, yang sulit diperoleh, terutama dalam Bahasa Indonesia. Pendekatan lain seperti disentanglement-based kesulitan untuk memisahkan konten utama dengan atribut gaya, sehingga makna teks bisa mengalami perubahan. Keterbatasan tersebut diatasi dengan pendekatan berbasis Abstract Meaning Representation (AMR) sebagai metode representasi semantik. AMR dapat mempertahankan makna dan tidak mengganggu informasi inti dari kalimat. Namun, model berbasis AMR masih menghadapi tantangan, antara lain kesulitan dalam merepresentasikan struktur morfologi khas Bahasa Indonesia, serta kendala dalam proses decode dari AMR menjadi teks yang lebih alami.
Penelitian ini mengembangkan pendekatan AMR-TST, yang dasarnya memiliki empat komponen utama yaitu, AMR-parser, style detector, style rewrite, dan AMR-generator. Model mBART digunakan untuk AMR-parser, sementara IndoT5 digunakan untuk AMR-generator dalam menghasilkan teks informal dari representasi semantik AMR. Style detector menggunakan model RoBERTa yang di-fine-tune untuk dapat menentukan kelas gaya teks (formal) dan menentukan kata bergaya yang terdeteksi. Style rewrite memanfaatkan kamus leksikal formal-informal yang telah tersedia sebanyak 15007 baris pasangan kata. Komponen style detector dan style rewrite yang diimplementasikan, ternyata tidak memberikan pengaruh terhadap hasil generate kalimat informal dan tidak membantu peningkatan kinerja model. Hasil fine-tune AMR-generator yang meningkat, justru memberikan pengaruh positif terhadap hasil generate teks informal dalam pipeline AMR-TST.
Eksperimen dilakukan menggunakan dataset formal-informal Bahasa Indonesia dengan evaluasi menggunakan metrik BLEU, BERTScore, dan PINC Score. Pendekatan keempat komponen hanya digunakan sebagai baseline penelitian untuk AMR-TST formal-informal. Penelitian utama dilakukan dengan hanya menggunakan AMR-parser dan AMR-generator yang terbukti mampu melakukan
iii
transformasi gaya bahasa lebih baik. AMR-generator memperoleh BLEU Score 0.32 dengan loss 0.17, sementara pipeline AMR-TST secara keseluruhan (2 komponen) mencapai BLEU 0.093. BERTScore dan PINC Score yang dihasilkan sebesar 0.753 dan 0.736. Hasil AMR-TST dipengaruhi oleh peningkatan hasil fine-tune AMR-generator dan tidak dipengaruhi oleh penambahan kamus leksikal pada style rewrite, maupun peningkatan hasil fine-tune style detector. Model ini diharapkan dapat lebih efektif dalam transfer gaya teks formal-informal untuk Bahasa Indonesia, ketika dilakukan penambahan terhadap dataset teks formal-informal.
Perpustakaan Digital ITB