Perpustakaan Digital - Digilib ITB

PENGEMBANGAN MODEL ALIH SUARA MENJADI TEKS INTERVIEW SUMMARIZATION SYSTEM BERBASIS MACHINE LEARNING

704 views

Penulis	:	Dwianditya Hanif Raharjanto [13519046]
Kontributor / Dosen Pembimbing	:	Dr. Ir. Gusti Ayu Putri Saptawati Soekidjo, M.Comm.
Jenis Koleksi	:	Tugas Akhir
Tahun Terbit	:
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	Automatic Speech Recognition, Word Error Rate, Whisper, Wav2Vec2, Transformer.
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	18 Sep 2023

Dwianditya Hanif Raharjanto [13519046].pdf
Terbatas Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Regenerasi SDM pada suatu perusahaan itu sangat penting untuk menjaga keberjalanan perusahaan tersebut dan mencapai visi misi dari perusahaan tersebut. Regenerasi SDM dapat diperoleh dengan cara melakukan rekrutmen pekerjaan. Namun, rekrutmen pekerjaan sendiri memakan waktu dan biaya yang besar untuk mendapatkan kandidat yang sesuai. Disinilah tugas akhir kali ini memberikan solusi dengan mengkolaborasikan mesin dengan manusia untuk membantu pada bagian waktu dan biaya kepada perusahaan, khususnya pada bagian wawancara. Pada tugas akhir kali ini difokuskan dalam pembuatan transkrip wawancara dengan memanfaatkan model alih suara menjadi teks serta memilih model mana antara Wav2Vec2 (Wav2Vec2-XLSR-53) dengan Whisper (Whisper-small dan Whisper-large) yang tepat untuk kasus ini. Menurut riset yang dilakukan model Whisper memiliki kinerja lebih baik daripada Wav2Vec2 karena model tersebut merupakan model yang dilatih dengan weakly supervised sedangkan Wav2Vec2 dilatih dengan semi-supervised. Kemudian korpus latih yang digunakan Whisper lebih lama daripada Wav2Vec2 serta parameter yang ada pada model Whisper yang lebih banyak daripada Wav2Vec2 yaitu 1.550 juta parameter berbanding dengan 300 juta. Berdasarkan hasil eksperimen didapatkan bahwa Whisper, khususnya Whisper-large, memang lebih baik daripada Wav2Vec2 dari segi kinerja dengan memiliki akurasi berupa WER sebesar 10.9% dengan waktu proses rata-rata 5 menit 23 detik untuk audio berdurasi 5-7 menit. Sedangkan Wav2Vec2-XLSR-53 memiliki WER sebesar 22.2% dengan waktu proses 13 menit 20 detik. Model yang digunakan untuk membantu proses wawancara pekerjaan disini adalah Whisper-large karena memiliki kinerja yang sesuai dengan kebutuhan yang ada yaitu akurat dan cepat.

Perpustakaan Digital ITB

PENGEMBANGAN MODEL ALIH SUARA MENJADI TEKS INTERVIEW SUMMARIZATION SYSTEM BERBASIS MACHINE LEARNING

Artikel Terkait