Seiring dengan berkembangnya teknologi informasi, berbagai ancaman di dunia
maya semakin besar dimana ancaman ini sudah tidak mengenal waktu dan batas-
batas konvensional negara. Berdasarkan monitoring terhadap 93 Mitra Honeynet
BSSN yang meliputi sektor Pemerintah, Infrastruktur Kritis Nasional, dan
Perguruan Tinggi, sepanjang tahun 2022 ditemukan terdapat dan 818.192 serangan
malware. Adapun berdasarkan data statistik yang dikeluarkan oleh AV-TEST
Institute, dalam kurun waktu 5 tahun terakhir telah terjadi peningkatan jumlah
malware secara besar, dimana selama bulan Januari hingga bulan Agustus 2023
terdapat lebih dari 1.068 juta malware secara global. Hal ini menunjukkan bahwa
ancaman malware bukanlah ancaman yang kecil dan dapat dipandang sebelah mata,
mengingat dampak yang ditimbulkan memiliki potensi pencurian data sensitif,
penghancuran data, dan gangguan terhadap operasi yang dapat berdampak luas.
Oleh karena itu, penting untuk terus melakukan penelitian deteksi dan klasifikasi
malware yang berkelanjutan untuk menghadapi ancaman ini.
Deteksi malware adalah proses mengidentifikasi maupun mengklasifikasi
perangkat lunak berbahaya (malware) yang dapat merugikan sistem komputer atau
perangkat lainnya. Machine learning sering kali menjadi salah satu solusi
keamanan siber yang memiliki kemampuan yang cukup efektif dalam mendeteksi
malware. Penerapan machine learning dalam deteksi malware masih banyak
menghadirkan tantangan. Salah satu tantangan yang sangat penting adalah
pemilihan algoritma machine learning yang memiliki performa yang tinggi dalam
mendeteksi perangkat lunak berbahaya. Naïve bayes merupakan salah satu
algoritma machine learning yang dapat digunakan dalam melakukan deteksi dan
klasifikasi malware. Dalam Naive Bayes, "naive" mengacu pada asumsi bahwa
semua variabel prediktor (feature) tidak bergantung (independen) dari nilai feature
lainnya pada suatu class variable tertentu. Dengan menganggap setiap feature
independen maka kinerja prediktif classifier Naïve Bayes dapat dipengaruhi secara
negatif oleh kehadiran atribut yang berlebihan dan memiliki dependensi dalam data
training. Terdapat berbagai cara dalam meningkatkan kinerja classifier Naïve
Bayes, yaitu menghapus features yang berkorelasi dengan menggunakan
conditional independence, menggunakan Weighted Principal Component Analysis
untuk meningkatkan performa naïve bayes, menggabungkan pembobotan feature
ii
(feature weighting) disertai kalibrasi Laplace, menggunakan Chi-Square sebagai
seleksi feature yang disertai dengan Laplace Smoothing dan mengkombinasikan
algoritma naïve bayes dengan algoritma lainnya menggunakan metode ensemble
bagging, voting dan stacking.
Dalam penelitian ini, penulis mengusulkan sebuah sistem deteksi yang
memanfaatkan berbagai varian algoritma Naïve Bayes yang telah ditingkatkan
dalam melakukan klasifikasi malware. Pengujian dilakukan dengan menggunakan
dataset training dari ember dataset dan dataset testing dari honeynet BSSN. Adapun
hasil eksperimen menunjukkan peninngkatan dalam tingkat akurasi, dimana pada
algoritma base model naïve bayes menunjukan akurasi 50%, sementara akurasi
tertinggi ditemukan pada metode Ensemble Stacking yang menggabungkan Naïve
Bayes, KNN, dan Random Forest dengan tingkat akurasi mencapai 95.1%.