Seiring dengan ukuran data yang terus bertambah terjadi revolusi dalam metode
komputasi dan statistik untuk memproses dan menganalisis data menjadi wawasan
dan pengetahuan. Tantangan utama yang dihadapi adalah data mentah tidak bisa
langsung digunakan untuk analisis. Hal tersebut berhubungan dengan kualitas dari
sebuah data. Salah satu permasalahan yang muncul terkait dengan kualitas data
adalah kelengkapan data. Missing data merupakan salah satu faktor yang sering
menyebabkan data menjadi tidak lengkap. Saat ini, metode analisis yang tersedia
hanya dapat bekerja dengan data yang lengkap. Pada penelitian kuantitatif,
missing data mengarah pada estimasi parameter yang bias. Dalam model
prediktif, pemilihan metode penanganan missing data yang tidak tepat dapat
mempengaruhi kinerja model. Pemilihan metode imputasi yang tidak tepat dapat
membuat classifier yang dipelajari bias dan menghasilkan kualitas klasifikasi
yang rendah pada data uji.
Selama lima dekade terakhir, berbagai metode telah dikembangkan untuk
penanganan missing data. Literatur tentang analisis data yang hilang sangat luas
dan masih berkembang dengan cepat. Secara umum, tiga strategi berbeda untuk
menangani data yang hilang yaitu penghapusan, imputasi, dan penggunaan apa
adanya. Pada dasarnya ketiga strategi tersebut dilakukan dalam upaya mengganti
data yang hilang agar diperoleh nilainya dan data bisa diproses sesuai dengan
kebutuhannya. Banyak metode imputasi mahal secara komputasi dan tidak cocok
untuk dataset skala besar serta tidak ada metode imputasi terbaik secara universal.
Terjadinya data yang hilang adalah perhatian utama dalam pembelajaran mesin
dan bidang yang terkait, termasuk domain medis. Metode yang didasarkan pada
teknik pembelajaran mesin adalah yang paling cocok untuk imputasi nilai-nilai
yang hilang. Namun demikian, sebagian besar teknik pembelajaran mesin
biasanya lebih mahal secara komputasi dari pada banyak teknik statistik kecuali
kNN. Algoritma yang lebih kompleks mungkin dapat menghasilkan hasil imputasi
yang lebih baik, namun membutuhkan biaya komputasi yang lebih tinggi
Pada permasalahan klasifikasi, metode imputasi berbasis class center (CCMVI)
dikembangkan dan mengungguli metode lain untuk tipe data numerik dan data
campuran namun tidak untuk data kategori. Banyak teknik untuk menangani
missing data mengabaikan korelasi antara atribut data, bahkan jika hal tesebut
iv
dilakukan hanya cocok untuk data kategori saja. Faktanya, kinerja algortima
imputasi nilai-nilai yang hilang secara signifikan dipengaruhi oleh faktor-faktor
seperti struktur korelasi dalam data. Untuk melakukan perkiraan data yang hilang
dengan mempertimbangkan korelasi dan keterkaitan antar variabel maka prosedur
pencarian adaptif menjadi salah satu yang dapat digunakan sebagai solusi. Firefly
Algoritm (FA) menerapkan prosedur pencarian adaptif dalam imputasi data yang
hilang dengan menemukan estimasi nilai yang paling dekat dengan nilai pada data
lain yang diketahui. Pada data numerik, normalisasi data dan penanganan nilai
yang hilang dianggap sebagai masalah utama dalam tahap pra pemrosesan data
pada saat algoritma klasifikasi diadopsi untuk menangani fitur numerik. Selain itu,
jika data diamati mengandung outlier, hasil estimasi nilai yang hilang mungkin
tidak dapat diandalkan atau bahkan sangat berbeda jauh dari nilai sebenarnya.
Pada data kategori, target encoding menggunakan informasi dari variabel target,
namun demikian memiliki resiko adanya overfitting dan tidak akurat pada
kategori yang kemunculannya jarang dalam data. Pada penelitian disertasi ini
diusulkan metode untuk menangani missing data berbasis class center dengan
memanfaatkan pola pecarian pada firefly algoritm (FA) berdasarkan korelasi
atribut dari data pada proses imputasi (C3-FA). Pola kunang – kunang yang
memiliki intensitas cahaya lebih redup mendekat pada kumpulan kunang –
kunang dengan intensitas cahaya lebih terang digunakan dalam proses imputasi
missing data dengan mengkombinasikannya berdasarkan tipe data.
Hasil pengujian pada beberapa dataset menunjukan bahwa metode usulan dapat
mereproduksi nilai-nilai sebenarnya dalam data atau predictive accuracy (PAC)
dan memiliki kemampuan untuk menjaga distribusi nilai-nilai dari data yang
hilang atau distributional accuracy (DAC). Selain itu metode usulan juga
menghasilkan nilai root mean squared error (RMSE) yang lebih kecil
dibandingkan dengan metode SVM, KKNI, WRF, FKKNI, dan CCMVI.
Kontribusi lainnya dari penelitian disertasi ini adalah adanya pengaruh outlier (O)
dan normalisasi (N) sebelum proses imputasi. Pada penelitian disertasi ini, metode
usulan (ON+C3-FA) mengungguli metode mean imputation, random imputation, linear regression, multiple imputation dan knn imputation. Untuk dataset
kategori, metode usulan C3FA-STD menghasilkan nilai AUC, CA, F1-Score,
Precision, dan Recall yang lebih baik dan mengungguli metode imputasi mode
yang merupakan metode terbaik pada penelitian sebelumnya untuk data kategori
dan metode imputasi dengan decision tree.