digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Peningkatan teknologi dan penggunaan data digital mengancam privasi individu, terutama dalam konten ucapan yang mengandung Personally Identifiable Information (PII). Oleh karena itu, diperlukan sistem yang mampu melakukan de- identifikasi data pada konten ucapan, terutama pada low-resource transcript yang sulit untuk diproses. Penelitian ini berfokus pada pengembangan dan evaluasi sistem de-identifikasi konten ucapan yang efisien untuk bahasa low-resource, seperti bahasa Indonesia, yang belum banyak dieksplorasi sebelumnya. Metode yang digunakan dalam penelitian ini melibatkan pembangunan dataset ucapan dalam bahasa Indonesia yang mengandung privasi dan pembangunan tiga komponen utama yaitu, komponen pemrosesan ucapan, komponen ekstraksi informasi, dan komponen masking. Dilakukan metode pelatihan dengan data hasil transkripsi, augmentasi data, dan weakly-supervised learning untuk meningkatkan performa sistem. Dari hasil eksperimen, metode de-identifikasi menggunakan pendekatan yang ada memberikan hasil berdasarkan persentase label pada dataset. Penggunaan metode kombinasi, termasuk data domain transkripsi audio, augmentasi dataset, dan pembelajaran semi-supervised, meningkatkan performa secara signifikan dengan mencapai recall 75,2%, precision 75,6%, dan F1 75,3% pada data sempurna.