digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Dessy Rondang Monaomi

Image Captioning merupakan cabang dari bidang Pemrosesan Bahasa Alami (Natural Language Processing) dan Visi Komputer (Computer Vision) yang bertujuan untuk menghasilkan caption bahasa alami yang tepat dari sebuah gambar. caption yang lebih kompleks dapat meningkatkan pengalaman pengguna dalam mengidentifikasi gambar dan memahami konteksnya. Namun, sebagian besar penelitian dalam bidang ini belum mempertimbangkan faktor sentimen, yang padahal sangat penting dalam memahami konteks dan nilai dari sebuah gambar. Pada penelitian ini, dilakukan pengembangan sistem image captioning dengan sentimen dalam bahasa Indonesia, menggunakan dataset yang telah diterjemahkan dan dilengkapi dengan informasi sentimen. Penelitian ini memperkenalkan pendekatan baru yang memanfaatkan arsitektur model dengan pretrained image encoder sebagai bagian dari proses encoding untuk mengekstrak fitur visual dari gambar. Fitur-fitur ini kemudian dikombinasikan dengan vektor hasil dari transformer encoder sebagai encoder teks. Gabungan vektor input ini kemudian dimasukkan ke dalam transformer decoder, yang menggunakan mekanisme Multihead Attention atau Transformer, untuk menghasilkan caption yang sesuai dengan sentimen yang ada dalam gambar. Pada tahap inferensi, gambar mengalami preprocessing dan embedding untuk menghasilkan representasi vektor, yang berbeda dengan tahap training karena vektor teks pada tahap inferensi berasal dari token awal (start token). Output dari decoder kemudian digunakan sebagai input model untuk memprediksi kata berikutnya secara iteratif hingga seluruh caption terbentuk. Evaluasi dilakukan menggunakan metrik BLEU dan ROUGE, serta mempertimbangkan akurasi dalam menggambarkan sentimen dalam gambar. Hasil eksperimen menunjukkan bahwa model Inception - Transformer mengungguli model lain, dengan skor BLEU tertinggi sebesar 0,366 dan ROUGE sebesar 0,244 pada sentimen positif, serta skor BLEU sebesar 0,323 dan ROUGE sebesar 0,229 pada sentimen negatif. Penelitian ini memiliki potensi untuk diaplikasikan dalam berbagai bidang yang memerlukan pemahaman sentimen dalam konteks gambar, seperti dalam ulasan produk di e-commerce. Pengembangan lebih lanjut dapat difokuskan pada peningkatan akurasi, keberagaman caption, serta pemodelan sentimen yang lebih kompleks dalam bahasa Indonesia.