Di Indonesia, kompetisi antar penjual e-commerce semakin intens. Salah satu cara
untuk penjual dapat bertahan adalah dengan mengatur inventori produk melalui
demand prediction. Beberapa penelitian telah dilakukan terkait dengan melakukan
prediksi terhadap penjualan produk yang mengimplementasikan teknik
preprocessing. Namun, belum ada yang menyatakan pengaruh dari preprocessing
yang berbeda terhadap kinerja dari model dan hasil prediksi, seperti yang dilakukan
oleh S.M. Taslim di industri baja. Pada penelitian ini, dilakukan perbandingan
teknik preprocessing pada metode stacked generalization, yang telah
dikembangkan oleh Irem Islek dan Sule Gunduz (2017), dan stand-alone untuk
prediksi demand e-commerce dengan mengujikan algoritma XGBoost dan MLP.
Beberapa masalah telah ditemukan pada penelitian ini, yang termasuk dari segi
akuisisi data, karakteristik data, dan algoritma yang digunakan. Dari seluruh
masalah tersebut, beberapa solusi diujikan sebagai skenario eksperimen agar
mendapatkan hasil yang terbaik pada prediksi. Solusi tersebut mencakup variasi
dari hyperparameter tuning, teknik transformasi data, dan batasan terhadap
interaksi fitur. Berdasarkan eksperimen yang telah dilakukan, didapatkan bahwa
transformasi data ke distribusi normal atau standarisasi data dapat meningkatkan
kinerja dari metode stacked generalization saat menggunakan MLP pada level 1.
Waktu pembelajaran dari metode tersebut juga dapat dipercepat dengan adanya
transformasi data secara signifikan dari distribusi tidak normal menjadi distribusi
normal. Dengan implementasi batasan terhadap interaksi fitur, waktu pembelajaran
metode stand-alone dan stacked generalization dapat dipercepat dengan hasil
prediksi yang sama baik atau lebih baik daripada saat tidak ada batasan terhadap
interaksi fitur. Dengan menggunakan hyperparameter tuning dan implementasi
penskalaan data, model stacked generalization, khususnya dengan XGBoost pada
level 1, akan memberikan evaluasi yang lebih baik dibandingkan model stand-alone
MLP. Metode stacked generalization dapat memperbaiki eror yang dihasilkan dari
parameter yang tidak sesuai dari stand-alone XGBoost, dengan kondisi bahwa data
tidak memiliki skewness yang sangat tinggi.