digilib@itb.ac.id +62 812 2508 8800

Perkembangan teknologi mendorong kemudahan bagi masyarakat untuk menyajikan dan mengakses informasi berupa video. Video dapat digunakan untuk menyampaikan informasi kepada masyarakat luas melalui media penyiaran dan situs, contohnya film dan berita. Namun selain memberikan informasi, konten dari video yang beredar luas dapat memberikan pengaruh pada perilaku masyarakat. Adanya pengaruh negatif dari video menimbulkan kebutuhan berupa pengendalian atas peredaran dan konten video. Salah satu bentuk pengendalian yang dilakukan adalah penyensoran. Penyensoran yang dilakukan saat ini memiliki keterbatasan terkait lamanya waktu yang dibutuhkan. Salah satu hal perlu dilakukan dalam penyensoran adalah pemeriksaan ada tidaknya ungkapan tak pantas dalam sebuah video. Sebagai salah satu bentuk penyelesaian dari permasalahan ini, penelitian ini membangun sistem pendeteksi ungkapan tak pantas dalam ucapan audio. Sistem ini dapat digunakan dalam proses pemeriksaan ungkapan tak pantas pada saat penyensoran, sehingga waktu penyensoran dapat menjadi lebih singkat. Sistem yang dibangun mengimplementasikan model pembelajaran mesin. Model tersebut melakukan klasifikasi terhadap kata dalam kalimat. Teknik pembelajaran yang diuji selama pembangunan adalah SVM, FFNN, LSTM, dan Bi-LSTM. Fitur yang diuji terdiri atas dua jenis, yaitu fitur tekstual dan fitur akustik. Fitur tekstual didapat dari transkripsi ucapan. Jenis fitur tekstual yang diuji adalah word-embedding, POS-tag, TF-IDF, daftar kata, sentence-embedding, dan N-gram. Fitur akustik yang didapat dari audio ucapan dan yang diuji adalah pitch, MFCC, fitur INTERSPEECH 2009, dan fitur INTERSPEECH 2010. Berdasarkan eksperimen, model dengan kinerja terbaik didapat dengan menggabungkan dari fitur word-embedding, POS-tag trigram, TF-IDF, daftar kata, sentence-embedding, serta MFCC di dalam model. Model tersebut menggunakan teknik pembelajaran dengan arsitektur FFNN dan memiliki F1-score klasifikasi kata sebesar 87.80%