digilib@itb.ac.id +62 812 2508 8800

Heru Nugroho 33218003.pdf
PUBLIC Dessy Rondang Monaomi

Seiring dengan ukuran data yang terus bertambah terjadi revolusi dalam metode komputasi dan statistik untuk memproses dan menganalisis data menjadi wawasan dan pengetahuan. Tantangan utama yang dihadapi adalah data mentah tidak bisa langsung digunakan untuk analisis. Hal tersebut berhubungan dengan kualitas dari sebuah data. Salah satu permasalahan yang muncul terkait dengan kualitas data adalah kelengkapan data. Missing data merupakan salah satu faktor yang sering menyebabkan data menjadi tidak lengkap. Saat ini, metode analisis yang tersedia hanya dapat bekerja dengan data yang lengkap. Pada penelitian kuantitatif, missing data mengarah pada estimasi parameter yang bias. Dalam model prediktif, pemilihan metode penanganan missing data yang tidak tepat dapat mempengaruhi kinerja model. Pemilihan metode imputasi yang tidak tepat dapat membuat classifier yang dipelajari bias dan menghasilkan kualitas klasifikasi yang rendah pada data uji. Selama lima dekade terakhir, berbagai metode telah dikembangkan untuk penanganan missing data. Literatur tentang analisis data yang hilang sangat luas dan masih berkembang dengan cepat. Secara umum, tiga strategi berbeda untuk menangani data yang hilang yaitu penghapusan, imputasi, dan penggunaan apa adanya. Pada dasarnya ketiga strategi tersebut dilakukan dalam upaya mengganti data yang hilang agar diperoleh nilainya dan data bisa diproses sesuai dengan kebutuhannya. Banyak metode imputasi mahal secara komputasi dan tidak cocok untuk dataset skala besar serta tidak ada metode imputasi terbaik secara universal. Terjadinya data yang hilang adalah perhatian utama dalam pembelajaran mesin dan bidang yang terkait, termasuk domain medis. Metode yang didasarkan pada teknik pembelajaran mesin adalah yang paling cocok untuk imputasi nilai-nilai yang hilang. Namun demikian, sebagian besar teknik pembelajaran mesin biasanya lebih mahal secara komputasi dari pada banyak teknik statistik kecuali kNN. Algoritma yang lebih kompleks mungkin dapat menghasilkan hasil imputasi yang lebih baik, namun membutuhkan biaya komputasi yang lebih tinggi Pada permasalahan klasifikasi, metode imputasi berbasis class center (CCMVI) dikembangkan dan mengungguli metode lain untuk tipe data numerik dan data campuran namun tidak untuk data kategori. Banyak teknik untuk menangani missing data mengabaikan korelasi antara atribut data, bahkan jika hal tesebut iv dilakukan hanya cocok untuk data kategori saja. Faktanya, kinerja algortima imputasi nilai-nilai yang hilang secara signifikan dipengaruhi oleh faktor-faktor seperti struktur korelasi dalam data. Untuk melakukan perkiraan data yang hilang dengan mempertimbangkan korelasi dan keterkaitan antar variabel maka prosedur pencarian adaptif menjadi salah satu yang dapat digunakan sebagai solusi. Firefly Algoritm (FA) menerapkan prosedur pencarian adaptif dalam imputasi data yang hilang dengan menemukan estimasi nilai yang paling dekat dengan nilai pada data lain yang diketahui. Pada data numerik, normalisasi data dan penanganan nilai yang hilang dianggap sebagai masalah utama dalam tahap pra pemrosesan data pada saat algoritma klasifikasi diadopsi untuk menangani fitur numerik. Selain itu, jika data diamati mengandung outlier, hasil estimasi nilai yang hilang mungkin tidak dapat diandalkan atau bahkan sangat berbeda jauh dari nilai sebenarnya. Pada data kategori, target encoding menggunakan informasi dari variabel target, namun demikian memiliki resiko adanya overfitting dan tidak akurat pada kategori yang kemunculannya jarang dalam data. Pada penelitian disertasi ini diusulkan metode untuk menangani missing data berbasis class center dengan memanfaatkan pola pecarian pada firefly algoritm (FA) berdasarkan korelasi atribut dari data pada proses imputasi (C3-FA). Pola kunang – kunang yang memiliki intensitas cahaya lebih redup mendekat pada kumpulan kunang – kunang dengan intensitas cahaya lebih terang digunakan dalam proses imputasi missing data dengan mengkombinasikannya berdasarkan tipe data. Hasil pengujian pada beberapa dataset menunjukan bahwa metode usulan dapat mereproduksi nilai-nilai sebenarnya dalam data atau predictive accuracy (PAC) dan memiliki kemampuan untuk menjaga distribusi nilai-nilai dari data yang hilang atau distributional accuracy (DAC). Selain itu metode usulan juga menghasilkan nilai root mean squared error (RMSE) yang lebih kecil dibandingkan dengan metode SVM, KKNI, WRF, FKKNI, dan CCMVI. Kontribusi lainnya dari penelitian disertasi ini adalah adanya pengaruh outlier (O) dan normalisasi (N) sebelum proses imputasi. Pada penelitian disertasi ini, metode usulan (ON+C3-FA) mengungguli metode mean imputation, random imputation, linear regression, multiple imputation dan knn imputation. Untuk dataset kategori, metode usulan C3FA-STD menghasilkan nilai AUC, CA, F1-Score, Precision, dan Recall yang lebih baik dan mengungguli metode imputasi mode yang merupakan metode terbaik pada penelitian sebelumnya untuk data kategori dan metode imputasi dengan decision tree.