Image captioning merupakan suatu task yang memetakan input gambar menjadi
suatu teks deskripsi atau caption. Penelitian terkait image captioning biasanya menggunakan dataset dengan gambar yang bersifat umum. Pada perkembangannya task tersebut juga dilakukan pada domain lain seperti berita dan remote sensing.
Penelitian ini mengangkat produk e-commerce sebagai domain yang digunakan oleh task image captioning. Penelitian dengan domain yang sama sebelumnya menunjukkan bahwa task image captioning dapat diaplikasikan pada domain produk e-commerce menggunakan model CNN-LSTM sederhana. Namun hasil yang diperoleh belum maksimal karena dataset yang kurang baik dan model CNNLSTM yang hanya menggunakan informasi gambar secara umum sehingga
menghasilkan deskripsi yang kurang spesifik.
Pada penelitian lain didapati bahwa penggunaan atribut semantik dapat
meningkatkan kinerja model pada dataset dengan gambar yang bersifat umum. Kemudian perkembangan terkini menunjukkan bahwa arsitektur berbasis transformer encoder yaitu Vision Transformer (ViT) dapat memberikan hasil yang
sangat baik pada task image recognition. Pada penelitian ini ditunjukkan bagaimana dampak penggunaan atribut semantik terhadap model image captioning dalam domain produk e-commerce. Selain itu juga ditunjukkan bagaimana kinerja model image captioning menggunakan arsitektur berbasis transformer utuh dibandingkan
dengan model CNN-LSTM.
Arsitektur image captioning berbasis transformer tersebut menggunakan ViT pada bagian encoder dan transformer decoder pada bagian decoder sehingga didapati arsitektur end-to-end yang dapat menerima gambar sebagai masukan dan
menghasilkan deskripsi/caption sebagai keluaran. Adapun identifikasi atribut semantik dilakukan dengan menggunakan Distinctive-attribut Extraction (DaE). Selain penggunaan arsitektur berbasis transformer dan DaE, pada penelitian ini juga
dihasilkan dataset image captioning pada domain produk e-commerce dengan data
yang diperoleh dari e-commerce Zalora. Zalora merupakan e-commerce yang
berfokus pada produk fashion khususnya fashion wanita.
Pada penelitian ini diperoleh ukuran kinerja dari empat model yaitu model dari penelitian sebelumnya, model dari penelitian sebelumnya dengan atribut semantik, model berbasis transformer, dan model berbasis transformer dengan atribut semantik. Model dari penelitian sebelumnya memiliki kinerja yang diukur dengan
metrik BLEU-1 hingga 4 dan CIDER berturut-turut sebesar 0.7098, 0.4247, 0.2928, 0.1835, dan 1.3084. Model dari penelitian sebelumnya dengan atribut semantik memiliki kinerja dengan metrik yang sama sebesar 0.7125, 0.4223, 0.2889, 0.1792,
dan 1.2530. Adapun model bebasis transformer memiliki kinerja sebesar 0.7898,
0.4969, 0.3577, 0.2473, dan 2.2373. Sementara model berbasis transformer dengan
atribut semantik memiliki kinerja sebesar 0.7210, 0.4356, 0.3030, 0.1970, dan
1.5730.
Penggunaan atribut semantik pada model pada dasarnya mampu meningkatkan
kinerja, namun hasil model DaE yang buruk mengakibatkan prediksi model secara keseluruhan menjadi buruk. Hal tersebut disebabkan oleh karakteristik dari domain
produk e-commerce. Pada e-commerce semantik yang bersifat spesifik lebih banyak
jumlahnya dibandingkan yang lebih umum sehingga jumlah sampel/contoh dari setiap semantik pun menjadi sedikit. Pada implementasinya, jumlah kelas pada DaE
menjadi banyak namun sampel setiap kelas sedikit sehingga proses pembelajaran
menjadi sulit.
Di sisi lain, penggunaan model berbasis transformer memberikan kinerja yang secara signifikan lebih baik dibandingkan model dari penelitian sebelumnya. Hasil tersebut didukung ViT yang memiliki kinerja yang baik pada task image recognition dan arsitektur transformer encoder-decoder yang juga memiliki kinerja
yang baik pada task machine translation. Berdasarkan hasil tersebut, penelitian tesis ini menunjukkan bahwa arsitektur transformer end-to-end dapat digunakan
dalam task image captioning khususnya pada domain produk e-commerce.