digilib@itb.ac.id +62 812 2508 8800

Transkripsi online adalah proses menentukan 'siapa yang berbicara apa' dengan masukan percakapan atau aliran audio yang sedang berlangsung, berbeda dengan skenario offline di mana percakapan telah usai dan keseluruhan audio untuk percakapan tersebut telah tersedia. Pengenalan online diperlukan saat isi pembicaraan beserta identitas pembicaranya ditentukan selama atau langsung setelah berujar, misalnya untuk transkripsi otomatis dalam siaran langsung atau pertemuan yang memerlukan identitas pembicara. Pengenalan online juga diperlukan dalam aplikasi yang menggunakan transkrip sebagai sumber data, misalnya analisis sentimen pada panggilan telepon yang sedang berlangsung. Pada penelitian ini diusulkan sebuah sistem pengenalan pembicara online berbasis GMM-UBM. Sistem ini kemudian dibandingkan dengan sistem offline sebagai tolah ukur. Sistem online yang dikembangkan melakukan pengenalan pembicara langsung pada penggalan audio yang mewakili pembicara. Pemenggalan dilakukan menggunakan metric Bayesian Information Criterion (BIC) dan Log Mel-Frequency Energies (LMFE). Sebagai langkah post-processing, sebuah jendela bergeser menghitung nilai log likelihood rata-rata pembicara dari sejumlah penggalan di dalam jendela, dan pembicara dengan nilai tertinggi dipilih sebagai identitas. Percobaan terhadap sistem offline yang digunakan sebagai tolak ukur menghasilkan tingkat kesalahan pembicara (SER) sebesar 25,5% untuk sistem online yang diusulkan dan 18,5% untuk sistem offline. Keterlambatan dari sistem yang diusulkan adalah 0,21 kali panjang segmen input, dibandingkan dengan 1,10 untuk sistem offline. Sistem ini kemudian digabungkan dengan sistem pengenalan ucapan online yang telah dikembangkan sebelumnya untuk menghasilkan sistem transkripsi online yang terpadu.