digilib@itb.ac.id +62 812 2508 8800

13519034 Ruhiyah Faradishi Widiaputri.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Ambiguitas, khususnya ambiguitas struktural, merupakan salah satu permasalahan dalam bahasa alami yang masih diabaikan oleh sebagian besar sistem pengenalan ucapan bahasa Indonesia. Belum ada sistem pengenal ucapan yang memanfaatkan informasi prosodik untuk mengatasi ambiguitas struktural. Oleh karena itu, penelitian ini mengembangkan sistem pertama yang dapat mendisambiguasi ucapan yang ambigu secara struktural menjadi teks interpretasinya yang tidak ambigu dalam bahasa Indonesia menggunakan informasi prosodik ucapan. Kontribusi dalam penelitian ini meliputi pembangunan korpus ucapan ambiguitas struktural dan sistem disambiguasi ucapan bahasa Indonesia. Proses pembuatan korpus terdiri dari pembuatan kalimat-kalimat ambigu struktural beserta dua interpretasinya dan perekaman ucapan. Terdapat dua informasi prosodik yang digunakan untuk disambiguasi pada penelitian ini yaitu jeda dan pitch, dengan fitur-fitur yang digunakan untuk menyimpan jeda adalah mel-spectrogram dan energi serta F0 untuk pitch. Sistem disambiguasi dibangun dengan mengadaptasi pendekatan cascade dan direct pada pemetaan ucapan-ke-teks, khususnya task terjemahan ucapan-ke-teks, dengan menggunakan kerangka Transformer. Pendekatan cascade terdiri dari ASR dan model baru yang disebut model disambiguasi teks (TD), sedangkan pendekatan direct terdiri dari satu model baru yang disebut model disambiguasi ucapan (SD). Pembuatan korpus ambiguitas struktural pada penelitian ini menghasilkan 400 kalimat ambigu struktural dan 4800 ucapan ambigu struktural bahasa Indonesia. Hasil penelitian menunjukkan sistem disambiguasi yang dibangun mampu menghasilkan teks interpretasi dengan cukup baik. Sistem terbaik pada penelitian ini yaitu sistem direct dengan kombinasi masukan mel-spectrogram yang dikonkatenasi F0 dan energi, mampu memberikan akurasi disambiguasi rata-rata hingga 82.2%. Sistem cascade terbaik, yaitu sistem cascade dengan penambahan tag arti dan kombinasi masukan yang sama memberikan kinerja yang tidak jauh berbeda yaitu akurasi disambiguasi rata-rata 79.6%.