Dalam pencarian gambar pada e-commerce seperti Bukalapak.com, gambar yang dihasilkan
merupakan gambar yang near-duplicate. Untuk mengatasi hal tersebut, diperlukan sebuah model
untuk melakukan clustering yang mampu mengelompokkan gambar berdasarkan kemiripan
gambar. Diperlukan pemilihan ekstraksi fitur yang tepat dalam melakukan clustering sehingga
menghasilkan cluster yang baik. Pada tugas akhir ini membahas mengenai pembangunan model
clustering untuk menjadi solusi permasalahan tersebut.
Model clustering yang dibangun menggunakan metode DBSCAN(Density-based Spatial
Clustering of Applications with Noise). Dalam melakukan clustering, diperlukan metode ekstraksi
fitur untuk gambar. Pada tugas akhir ini, terdapat 4 metode ekstraksi fitur yang digunakan yaitu
SIFT(Scale Infariant Feature Transform), ORB(Oriented FAST and Ratated BRIEF),
PCA(Principal Component Analysis)-SIFT dan SURF(Speeded Up Robust Features). Selain itu,
telah dibangun aplikasi web near-duplicate citra retrieval dari model clustering terbaik. Aplikasi
tersebut juga memiliki antarmuka untuk penambahan data pada model. Tak hanya itu, tugas akhir
ini juga membahas terkait modifikasi metode DBSCAN, performa dari setiap model, dan
pembangunan aplikasi web near-dupilicate citra retrieval.
Modifikasi yang dilakukan bertujuan untuk menghitung jarak antara dua gambar dilihat dari
jumlah pasangan keypoints yang dihasilkan dan penambahan fungsi prediksi untuk memprediksi
cluster dari data uji. Performa model diukur berdasarkan nilai purity dan akurasi.
Hasil eksperimen menunjukkan bahwa dua metode ekstraksi fitur SIFT dan SURF berhasil
melakukan clustering sedangkan ORB dan PCA-SIFT gagal dalam melakukan clustering. Nilai
performa model SIFT dan SURF memiliki nilai purity yang sama sebesar 1. Berdasarkan dari nilai
akurasi, model SIFT memiliki akurasi sebesar 0.9, sedikit lebih baik daripada model SURF dengan
akurasi sebesar 0.8.