digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Renita Napitupulu
PUBLIC Alice Diniarti

Perkembangan media digital yang cukup tinggi berpengaruh terhadap peningkatan pembelian secara online oleh masyarakat. Melihat kondisi ini, pelaku bisnis berusaha meningkatkan penjualan salah satunya dengan pengoptimalan strategi marketing. Untuk mencapai itu, pelaku bisnis harus tahu terlebih dahulu transaksi yang memiliki kemungkinan terjadi pembelian. Data yang dapat digunakan untuk prediksi terjadinya pembelian yaitu data customer journey yang mencatat setiap detail dari proses interaksi pelanggan dimulai dari tahapan pra-pembelian hingga pasca pembelian. Berdasarkan penelitian Kabir (2019) terkait prediksi kemungkinan pengguna melakukan transaksi pembelian diperoleh bahwa gradient boosting memiliki kinerja terbaik. CatBoost merupakan pengembangan terbaru dari model ensemble tipe gradient boosting dan disebutkan memiliki kinerja terbaik untuk persoalan klasifikasi. Penelitian terakhir yang dilakukan Vivianni (2021) mengenai model terbaik untuk prediksi terjadinya pembelian berdasarkan data customner journey belum melakukan penanganan terkait imbalanced data. Pada penelitian ini dilakukan perbandingan model gradient boosting dan juga catboost untuk melakukan prediksi terjadinya pembelian berdasarkan customer journey. Data customer journey yang telah dikumpulkan terlebih dahulu dilakukan preprocessing dan eksplorasi data yang dilanjutkan dengan ekstraksi untuk seleksi dan transformasi fitur untuk data eksperimen. Tahapan selanjutnya yaitu eksperimen dengan dan tanpa pengananan imbalanced data yang kemudian akan dievaluasi menggunakan metrik F1-Score. Setelah dilakukan analisis, proporsi data pembelian hanya sebesar 5.8% dari total data ekperimen. Berdasarkan hasil evaluasi, model catboost dengan parameter default dan penanganan terhadap imbalanced data memberikan nilai F1-Score terbaik yaitu sebesar 0.51. Penanganan terhadap imbalanced data meningkatkan hasil evaluasi kedua model yang dibangun. Saran untuk penelitian selanjutnya yaitu dilakukan seleksi dan ekstrasi fitur yang lebih merepresentasikan pelanggan dan juga dicobakan penanganan imbalanced data menggunakan metode undersampling.