Kemajuan teknologi dewasa ini diikuti dengan meningkatnya vulnerability dan
ancaman. Dalam keamanan terdapat berbagai kelemahan yang diakibatkan
kelemahan dalam perangkat lunak, sistem atau jaringan, kelemahan yang
diakibatkan perangkat keras dari komputer, maupun kelemahan yang diakibatkan
oleh manusia sebagai pengguna dari sistem yang dibuat. Kelemahan ini
dimanfaatkan oleh manusia yang tidak bertanggang jawab untuk memperoleh
keuntungan dengan menembus sistem tersebut. Salah satu cara yang dilakukan
penjahat siber untuk melakukan pembajakan, penipuan, perusakan, pengintaian
pencurian, dan memperoleh informasi yang bersifat rahasia yaitu menggunakan
malware.
Malware atau malicious software dalam hal ini digunakan untuk menyusup ke
dalam sistem operasi dalam bentuk perangkat lunak. Malware memiliki beberapa
jenis diantaranya worm, virus, trojan, spyware, rootkit, ransomware, dan lain-lain.
Tidak hanya jenisnya yang bermacam-macam dan mengalami mutasi, malware
juga mengalami peningkatan jumlah dari tahun ke tahun. Telah banyak kasus
serangan malware berskala besar yang sangat merugikan dan ditujukan kepada
lembaga, perbankan, government, perusahaan, dan bahkan masyarakat umum.
Beberapa kasus besar serangan malware yang telah terjadi diantaranya kasus
wannacry tahun 2017 dengan kerugian melebihi 4 billion USD, kasus ILOVEYOU
tahun 2000 berupa worm yang menginfeksi 45 million orang dengan kerugian 15
billion USD, kasus petya pada tahun 2016 berupa serangan pada banks dan airports
dengan kerugian mencapai 10 billion USD, kasus terbaru covidlock pada tahun
2020, serta banyak kasus lainnya.[1]
Perlawanan terhadap serangan malware dilakukan dengan mengembangkan anti-
malware yang dapat melalukan sistem pendeteksian untuk mengidentifikasi dan
memulihkan sistem terhadap ancaman lebih cepat. Pengembangan pendeteksian
malware dengan machine learning menjadi salah satu bahasan yang sedang
diminati komunitas cybersecurity.[2] Pengembangan ini tentunya memerlukan
dataset untuk mengakomodasi hal tersebut. Salah satu bentuk dataset yang diminati
untuk saat ini adalah dataset image. Dataset image memberikan visualisasi gambar
yang dapat di cermati oleh mata dengan model dan tools pendukung yang tersedia
ii
cukup banyak dan beragam dengan hasil akurasi yang bagus pada penelitian
sebelumnya.[3][4] Salah satu dataset image malware yang masih digunakan saat
ini yaitu dataset malimg. Dataset malimg merupakan dataset yang memiliki 9339
sampel yang terbagi menjadi 25 kelas family dengan citra grayscale.[5] Untuk
memberikan insight tambahan ke peneliti dan melakukan pembaharuan pada
dataset, dalam tugas akhir ini dibuat dataset image malware menggunakan 1907
sampel yang dikelompokkan menjadi malicious dan benign yang divisualisasikan
dengan dua citra yaitu RGB dan grayscale.
Pada tugas akhir ini dataset malicious dan benign sampel dalam format RGB dan
grayscale image dibuat dengan empat sub-sistem. Sub-sistem pertama
pengumpulan sampel windows PE file melalui proses downloading dan cloning dari
public repositories. Sub-sistem kedua melakukan proses binary hashing untuk
memperoleh hash SHA-256 dari setiap sampel. Sub-sistem ketiga dilakukan
scanning dari setiap hash ke VirusTotal untuk memperoleh informasi malicious dan
benign sampel lalu mengelompokkan sampel sesuai hasil pemindaian. Sub-sistem
keempat, sampel malicious dan benign kemudian dikonversi ke format images
dengan citra RGB dan grayscale. Hasil dataset yang diperoleh untuk citra RGB
benign adalah 858 dan malicious adalah 1.025 dan untuk citra grayscale benign
adalah 872 dan malicious adalah 1.033. Hasil dataset diuji menggunakan algoritma
Convolutional Neural Network (CNN) sederhana untuk memastikan dataset layak
untuk digunakan.