Perpustakaan Digital - Digilib ITB

SISTEM DE-IDENTIFIKASI KONTEN UCAPAN DALAM BAHASA INDONESIA UNTUK LOW RESOURCE TRANSCRIPT

252 views

Penulis	:	Rifqi Naufal Abdjul [13520062]
Kontributor / Dosen Pembimbing	:	Dessi Puji Lestari, S.T, M.Eng., Ph.D.
Jenis Koleksi	:	Tugas Akhir
Tahun Terbit	:
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	privasi, de-identifikasi, low-resource
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	08 Jul 2024

Dokumen Asli
Terbatas Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Peningkatan teknologi dan penggunaan data digital mengancam privasi individu, terutama dalam konten ucapan yang mengandung Personally Identifiable Information (PII). Oleh karena itu, diperlukan sistem yang mampu melakukan de- identifikasi data pada konten ucapan, terutama pada low-resource transcript yang sulit untuk diproses. Penelitian ini berfokus pada pengembangan dan evaluasi sistem de-identifikasi konten ucapan yang efisien untuk bahasa low-resource, seperti bahasa Indonesia, yang belum banyak dieksplorasi sebelumnya. Metode yang digunakan dalam penelitian ini melibatkan pembangunan dataset ucapan dalam bahasa Indonesia yang mengandung privasi dan pembangunan tiga komponen utama yaitu, komponen pemrosesan ucapan, komponen ekstraksi informasi, dan komponen masking. Dilakukan metode pelatihan dengan data hasil transkripsi, augmentasi data, dan weakly-supervised learning untuk meningkatkan performa sistem. Dari hasil eksperimen, metode de-identifikasi menggunakan pendekatan yang ada memberikan hasil berdasarkan persentase label pada dataset. Penggunaan metode kombinasi, termasuk data domain transkripsi audio, augmentasi dataset, dan pembelajaran semi-supervised, meningkatkan performa secara signifikan dengan mencapai recall 75,2%, precision 75,6%, dan F1 75,3% pada data sempurna.

Perpustakaan Digital ITB

SISTEM DE-IDENTIFIKASI KONTEN UCAPAN DALAM BAHASA INDONESIA UNTUK LOW RESOURCE TRANSCRIPT

Artikel Terkait