Image Captioning merupakan cabang dari bidang Pemrosesan Bahasa Alami
(Natural Language Processing) dan Visi Komputer (Computer Vision) yang
bertujuan untuk menghasilkan caption bahasa alami yang tepat dari sebuah gambar.
caption yang lebih kompleks dapat meningkatkan pengalaman pengguna dalam
mengidentifikasi gambar dan memahami konteksnya. Namun, sebagian besar
penelitian dalam bidang ini belum mempertimbangkan faktor sentimen, yang
padahal sangat penting dalam memahami konteks dan nilai dari sebuah gambar.
Pada penelitian ini, dilakukan pengembangan sistem image captioning dengan
sentimen dalam bahasa Indonesia, menggunakan dataset yang telah diterjemahkan
dan dilengkapi dengan informasi sentimen. Penelitian ini memperkenalkan
pendekatan baru yang memanfaatkan arsitektur model dengan pretrained image
encoder sebagai bagian dari proses encoding untuk mengekstrak fitur visual dari
gambar. Fitur-fitur ini kemudian dikombinasikan dengan vektor hasil dari
transformer encoder sebagai encoder teks. Gabungan vektor input ini kemudian
dimasukkan ke dalam transformer decoder, yang menggunakan mekanisme
Multihead Attention atau Transformer, untuk menghasilkan caption yang sesuai
dengan sentimen yang ada dalam gambar.
Pada tahap inferensi, gambar mengalami preprocessing dan embedding untuk
menghasilkan representasi vektor, yang berbeda dengan tahap training karena
vektor teks pada tahap inferensi berasal dari token awal (start token). Output dari
decoder kemudian digunakan sebagai input model untuk memprediksi kata
berikutnya secara iteratif hingga seluruh caption terbentuk. Evaluasi dilakukan
menggunakan metrik BLEU dan ROUGE, serta mempertimbangkan akurasi dalam
menggambarkan sentimen dalam gambar.
Hasil eksperimen menunjukkan bahwa model Inception - Transformer
mengungguli model lain, dengan skor BLEU tertinggi sebesar 0,366 dan ROUGE
sebesar 0,244 pada sentimen positif, serta skor BLEU sebesar 0,323 dan ROUGE
sebesar 0,229 pada sentimen negatif. Penelitian ini memiliki potensi untuk
diaplikasikan dalam berbagai bidang yang memerlukan pemahaman sentimen
dalam konteks gambar, seperti dalam ulasan produk di e-commerce. Pengembangan
lebih lanjut dapat difokuskan pada peningkatan akurasi, keberagaman caption, serta
pemodelan sentimen yang lebih kompleks dalam bahasa Indonesia.