Dalam era perkembangan perangkat lunak yang semakin kompleks, prediksi cacat perangkat lunak menjadi salah satu aspek krusial untuk menjamin kualitas dan keandalan produk perangkat lunak. Terdapat beberapa tantangan dalam pengembangan prediksi cacat perangkat lunak, salah satunya adalah ketidakseimbangan data, di mana jumlah kasus cacat jauh lebih sedikit dibandingkan dengan kasus non-cacat. Selain itu, performa model prediksi yang masih dapat ditingkatkan juga menjadi masalah yang perlu diperhatikan.
Penelitian ini mengusulkan pendekatan baru untuk mengatasi masalah tersebut dengan menggabungkan Synthetic Minority Oversampling Technique (SMOTE), hybrid feature selection dengan menggunakan Grey Wolf Optimizer (GWO) dan binary Genetics Algoritm (GA), serta ensemble stacking yang terdiri dari KNN, XGBoost, dan Logistic Regression. SMOTE digunakan untuk menangani ketidakseimbangan data dengan menyintesis sampel baru dari kelas minoritas. GWO dan binary GA digunakan untuk memilih fitur yang memiliki pengaruh kuat dalam menentukan hasil prediksi, sementara ensemble stacking digunakan untuk melakukan klasifikasi dengan kemampuan untuk meningkatkan performa model.
Hasil penelitian menunjukkan bahwa penggunaan hybrid feature selection dan ensemble stacking memiliki nilai akurasi dan AUC-ROC yang lebih besar dari model baseline sebesar 7,02% dan 2%. Selain itu, penambahan GWO pada binary GA tanpa adanya ensemble stacking juga meningkatkan rata-rata nilai akurasi dan AUC-ROC sekitar 3,35% dan 0,5%. Meskipun demikian, hasil AUC-ROC pada dua skenario tersebut menunjukkan beberapa peningkatan dan penurunan pada beberapa dataset, yang dipengaruhi oleh karakteristik dataset seperti ukuran dataset dan keseimbangan dataset. Adapun fitur-fitur yang paling berpengaruh dalam prediksi cacat perangkat lunak adalah loc_blank, loc_comments, cyclomatic_complexity, design_complexity, dan loc_total. Fitur-fitur ini menunjukkan korelasi positif terhadap kemungkinan terjadinya cacat, yang memberikan wawasan penting untuk perbaikan kualitas perangkat lunak dan pengembangan metode prediksi yang lebih efektif.