Malware telah menjadi ancaman besar di dunia maya. Berdasarkan laporan dari
perusahaan antivirus McAfee, rata-rata terjadi 588 serangan malware setiap menit.
Salah satu insiden besar terjadi ketika ransomware LockBit berhasil menginfeksi
server Pusat Data Nasional Sementara, yang menyebabkan 282 layanan institusi
pemerintahan Indonesia lumpuh selama lebih dari seminggu. Selain dampak pada
kelumpuhan layanan, malware juga menyebabkan kerugian ekonomi yang
signifikan. Sepanjang tahun 2023, dilaporkan bahwa pembayaran Ransomware
mencapai angka $1,1 triliun.
Saat ini, banyak antivirus masih mengandalkan teknik deteksi berbasis tanda tangan
malware dan heuristik. Meskipun metode ini efektif dalam mendeteksi malware,
proses penyusunan tanda tangan malware dan aturan heuristik dikerjakan secara
manual oleh analis malware. Proses ini memerlukan waktu lama dan keahlian
khusus. Mengingat jumlah malware yang terus meningkat, diperlukan metode
deteksi malware yang otomatis. Oleh karena itu, teknologi pembelajaran mesin
mulai digunakan dalam deteksi malware. Namun penerapan pembelajaran mesin
masih menghadapi beberapa tantangan, seperti proses pelabelan data yang
membutuhkan waktu lama dan keterbatasan dalam mendeteksi malware baru.
Penelitian ini berfokus pada pengembangan metode deteksi malware dengan
pendekatan pembelajaran mesin, yang mampu mengatasi permasalahan tersebut.
Metode yang diusulkan menggunakan representasi gambar, metode pembelajaran
mandiri (SSL) dan arsitektur multimodal. Teknik pembelajaran mandiri, yang telah
sukses diterapkan dalam bidang visi komputer, mampu mendekati performa
pembelajaran terbimbing tanpa membutuhkan data berlabel dalam jumlah besar.
Dengan pembelajaran mandiri, pengembangan metode deteksi malware diharapkan
dapat mengatasi kendala pelabelan.
Untuk mendeteksi malware baru, penelitian ini menggunakan metode multimodal.
Metode ini mengubah malware menjadi representasi gambar dan suara, lalu
mempelajari polanya. Dengan asumsi bahwa malware baru memiliki bagian kode
yang mirip dengan malware yang sudah dikenal, metode multimodal mampu
mengenali malware baru dari pola malware yang telah dikenal. Arsitektur
iv
multimodal menggabungkan deteksi malware berbasis gambar dan suara untuk
mendeteksi secara lebih efektif.
Penelitian ini dibagi menjadi tiga tahap utama. Tahap pertama adalah
pengembangan metode deteksi berbasis representasi gambar dengan pembelajaran
mandiri. Pada tahap kedua, dilakukan pengembangan metode deteksi berbasis
representasi suara dengan CNN. Tahap ketiga adalah pengembangan arsitektur
multimodal. Semua tahapan ini dilakukan dengan pendekatan eksperimental.
Kebaruan penelitian ini terletak pada pengembangan metode deteksi malware yang
tidak memerlukan pelabelan data dalam jumlah besar dengan MalSSL dan mampu
mengenali malware baru dengan multimodal. MalSSL (metode klasifikasi malware
dengan pembelajaran mandiri) berhasil mencapai akurasi 98,4% dalam klasifikasi
malware tanpa pelabelan data besar. Metode multimodal, yang menggabungkan
representasi gambar dan suara dengan pendekatan late fusion mampu mendeteksi
varian malware baru dengan akurasi 95,1%. Selain itu sistem multimodal juga
mampu mendeteksi malware yang telah dikenal dengan akurasi 99,7%.