Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Peningkatan teknologi dan penggunaan data digital mengancam privasi individu,
terutama dalam konten ucapan yang mengandung Personally Identifiable
Information (PII). Oleh karena itu, diperlukan sistem yang mampu melakukan de-
identifikasi data pada konten ucapan, terutama pada low-resource transcript yang
sulit untuk diproses. Penelitian ini berfokus pada pengembangan dan evaluasi
sistem de-identifikasi konten ucapan yang efisien untuk bahasa low-resource,
seperti bahasa Indonesia, yang belum banyak dieksplorasi sebelumnya.
Metode yang digunakan dalam penelitian ini melibatkan pembangunan dataset
ucapan dalam bahasa Indonesia yang mengandung privasi dan pembangunan tiga
komponen utama yaitu, komponen pemrosesan ucapan, komponen ekstraksi
informasi, dan komponen masking. Dilakukan metode pelatihan dengan data hasil
transkripsi, augmentasi data, dan weakly-supervised learning untuk meningkatkan
performa sistem.
Dari hasil eksperimen, metode de-identifikasi menggunakan pendekatan yang ada
memberikan hasil berdasarkan persentase label pada dataset. Penggunaan metode
kombinasi, termasuk data domain transkripsi audio, augmentasi dataset, dan
pembelajaran semi-supervised, meningkatkan performa secara signifikan dengan
mencapai recall 75,2%, precision 75,6%, dan F1 75,3% pada data sempurna.