digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Irfan Ihsanul Amal
PUBLIC Alice Diniarti

Image captioning merupakan suatu task yang memetakan input gambar menjadi suatu teks deskripsi atau caption. Penelitian terkait image captioning biasanya menggunakan dataset dengan gambar yang bersifat umum. Pada perkembangannya task tersebut juga dilakukan pada domain lain seperti berita dan remote sensing. Penelitian ini mengangkat produk e-commerce sebagai domain yang digunakan oleh task image captioning. Penelitian dengan domain yang sama sebelumnya menunjukkan bahwa task image captioning dapat diaplikasikan pada domain produk e-commerce menggunakan model CNN-LSTM sederhana. Namun hasil yang diperoleh belum maksimal karena dataset yang kurang baik dan model CNNLSTM yang hanya menggunakan informasi gambar secara umum sehingga menghasilkan deskripsi yang kurang spesifik. Pada penelitian lain didapati bahwa penggunaan atribut semantik dapat meningkatkan kinerja model pada dataset dengan gambar yang bersifat umum. Kemudian perkembangan terkini menunjukkan bahwa arsitektur berbasis transformer encoder yaitu Vision Transformer (ViT) dapat memberikan hasil yang sangat baik pada task image recognition. Pada penelitian ini ditunjukkan bagaimana dampak penggunaan atribut semantik terhadap model image captioning dalam domain produk e-commerce. Selain itu juga ditunjukkan bagaimana kinerja model image captioning menggunakan arsitektur berbasis transformer utuh dibandingkan dengan model CNN-LSTM. Arsitektur image captioning berbasis transformer tersebut menggunakan ViT pada bagian encoder dan transformer decoder pada bagian decoder sehingga didapati arsitektur end-to-end yang dapat menerima gambar sebagai masukan dan menghasilkan deskripsi/caption sebagai keluaran. Adapun identifikasi atribut semantik dilakukan dengan menggunakan Distinctive-attribut Extraction (DaE). Selain penggunaan arsitektur berbasis transformer dan DaE, pada penelitian ini juga dihasilkan dataset image captioning pada domain produk e-commerce dengan data yang diperoleh dari e-commerce Zalora. Zalora merupakan e-commerce yang berfokus pada produk fashion khususnya fashion wanita. Pada penelitian ini diperoleh ukuran kinerja dari empat model yaitu model dari penelitian sebelumnya, model dari penelitian sebelumnya dengan atribut semantik, model berbasis transformer, dan model berbasis transformer dengan atribut semantik. Model dari penelitian sebelumnya memiliki kinerja yang diukur dengan metrik BLEU-1 hingga 4 dan CIDER berturut-turut sebesar 0.7098, 0.4247, 0.2928, 0.1835, dan 1.3084. Model dari penelitian sebelumnya dengan atribut semantik memiliki kinerja dengan metrik yang sama sebesar 0.7125, 0.4223, 0.2889, 0.1792, dan 1.2530. Adapun model bebasis transformer memiliki kinerja sebesar 0.7898, 0.4969, 0.3577, 0.2473, dan 2.2373. Sementara model berbasis transformer dengan atribut semantik memiliki kinerja sebesar 0.7210, 0.4356, 0.3030, 0.1970, dan 1.5730. Penggunaan atribut semantik pada model pada dasarnya mampu meningkatkan kinerja, namun hasil model DaE yang buruk mengakibatkan prediksi model secara keseluruhan menjadi buruk. Hal tersebut disebabkan oleh karakteristik dari domain produk e-commerce. Pada e-commerce semantik yang bersifat spesifik lebih banyak jumlahnya dibandingkan yang lebih umum sehingga jumlah sampel/contoh dari setiap semantik pun menjadi sedikit. Pada implementasinya, jumlah kelas pada DaE menjadi banyak namun sampel setiap kelas sedikit sehingga proses pembelajaran menjadi sulit. Di sisi lain, penggunaan model berbasis transformer memberikan kinerja yang secara signifikan lebih baik dibandingkan model dari penelitian sebelumnya. Hasil tersebut didukung ViT yang memiliki kinerja yang baik pada task image recognition dan arsitektur transformer encoder-decoder yang juga memiliki kinerja yang baik pada task machine translation. Berdasarkan hasil tersebut, penelitian tesis ini menunjukkan bahwa arsitektur transformer end-to-end dapat digunakan dalam task image captioning khususnya pada domain produk e-commerce.