COVER Abdurrahman
Terbatas  karya
» Gedung UPT Perpustakaan
Terbatas  karya
» Gedung UPT Perpustakaan
BAB 1 Abdurrahman
Terbatas  karya
» Gedung UPT Perpustakaan
Terbatas  karya
» Gedung UPT Perpustakaan
BAB 2 Abdurrahman
Terbatas  karya
» Gedung UPT Perpustakaan
Terbatas  karya
» Gedung UPT Perpustakaan
BAB 3 Abdurrahman
Terbatas  karya
» Gedung UPT Perpustakaan
Terbatas  karya
» Gedung UPT Perpustakaan
BAB 4 Abdurrahman
Terbatas  karya
» Gedung UPT Perpustakaan
Terbatas  karya
» Gedung UPT Perpustakaan
BAB 5 Abdurrahman
Terbatas  karya
» Gedung UPT Perpustakaan
Terbatas  karya
» Gedung UPT Perpustakaan
PUSTAKA Abdurrahman
Terbatas  karya
» Gedung UPT Perpustakaan
Terbatas  karya
» Gedung UPT Perpustakaan
Salah satu penentu kualitas sebuah model pemrosesan bahasa berbasis pembelajaran mesin adalah ketersediaan data. Pelabelan dapat memakan waktu yang cukup lama dan data yang bersifat publik pada Bahasa Indonesia masih belum cukup banyak. Hal ini dapat menghambat penelitian pada pemrosesan Bahasa Indonesia. Selain melakukan optimasi pada data berukuran kecil, augmentasi data teks dapat dilakukan untuk meningkatkan hasil evaluasi dari model klasifikasi. Augmentasi data teks yang dilakukan membuat sebuah kalimat baru dengan mengganti beberapa kata pada kalimat dengan sinonimnya.
Augmentasi data teks perlu dilakukan dengan memperhatikan dua faktor yaitu jumlah kata yang diganti dan pemilihan sinonim pada setiap kata yang diganti. Jumlah kata yang diganti dihitung dengan mengalikan panjang kalimat dengan derajat augmentasi. Kandidat sinonim diperoleh dengan tesaurus sedangkan pemilihan sinonim ditentukan dengan menelusuri kemungkinan susunan kata dengan algoritma beam search sehingga didapatkan susunan kata dengan nilai probabilitas terbaik. Nilai probabilitas dihasilkan oleh language model.
Eksperimen dilakukan dengan korpus berisi kalimat berita dan dataset dengan domain otomotif. Korpus berisi kalimat sebanyak kurang lebih 1 juta kalimat digunakan untuk melatih language model. Language model kemudian digunakan pada proses augmentasi pada dataset yang digunakan untuk melatih kategorisasi aspek dan klasifikasi sentimen. Language model terbaik didapatkan dengan membangun 5-gram neural language model. Menggunakan language model tersebut, didapatkan derajat augmentasi terbaik bernilai 0.5 pada kategorisasi aspek dan derajat augmentasi terbaik bernilai 0.3 pada klasifikasi sentimen. Augmentasi data teks meningkatkan hasil evaluasi sebesar 0.03 hingga 0.04.
Perpustakaan Digital ITB