digilib@itb.ac.id +62 812 2508 8800

Kemajuan teknologi dewasa ini diikuti dengan meningkatnya vulnerability dan ancaman. Dalam keamanan terdapat berbagai kelemahan yang diakibatkan kelemahan dalam perangkat lunak, sistem atau jaringan, kelemahan yang diakibatkan perangkat keras dari komputer, maupun kelemahan yang diakibatkan oleh manusia sebagai pengguna dari sistem yang dibuat. Kelemahan ini dimanfaatkan oleh manusia yang tidak bertanggang jawab untuk memperoleh keuntungan dengan menembus sistem tersebut. Salah satu cara yang dilakukan penjahat siber untuk melakukan pembajakan, penipuan, perusakan, pengintaian pencurian, dan memperoleh informasi yang bersifat rahasia yaitu menggunakan malware. Malware atau malicious software dalam hal ini digunakan untuk menyusup ke dalam sistem operasi dalam bentuk perangkat lunak. Malware memiliki beberapa jenis diantaranya worm, virus, trojan, spyware, rootkit, ransomware, dan lain-lain. Tidak hanya jenisnya yang bermacam-macam dan mengalami mutasi, malware juga mengalami peningkatan jumlah dari tahun ke tahun. Telah banyak kasus serangan malware berskala besar yang sangat merugikan dan ditujukan kepada lembaga, perbankan, government, perusahaan, dan bahkan masyarakat umum. Beberapa kasus besar serangan malware yang telah terjadi diantaranya kasus wannacry tahun 2017 dengan kerugian melebihi 4 billion USD, kasus ILOVEYOU tahun 2000 berupa worm yang menginfeksi 45 million orang dengan kerugian 15 billion USD, kasus petya pada tahun 2016 berupa serangan pada banks dan airports dengan kerugian mencapai 10 billion USD, kasus terbaru covidlock pada tahun 2020, serta banyak kasus lainnya.[1] Perlawanan terhadap serangan malware dilakukan dengan mengembangkan anti- malware yang dapat melalukan sistem pendeteksian untuk mengidentifikasi dan memulihkan sistem terhadap ancaman lebih cepat. Pengembangan pendeteksian malware dengan machine learning menjadi salah satu bahasan yang sedang diminati komunitas cybersecurity.[2] Pengembangan ini tentunya memerlukan dataset untuk mengakomodasi hal tersebut. Salah satu bentuk dataset yang diminati untuk saat ini adalah dataset image. Dataset image memberikan visualisasi gambar yang dapat di cermati oleh mata dengan model dan tools pendukung yang tersedia ii cukup banyak dan beragam dengan hasil akurasi yang bagus pada penelitian sebelumnya.[3][4] Salah satu dataset image malware yang masih digunakan saat ini yaitu dataset malimg. Dataset malimg merupakan dataset yang memiliki 9339 sampel yang terbagi menjadi 25 kelas family dengan citra grayscale.[5] Untuk memberikan insight tambahan ke peneliti dan melakukan pembaharuan pada dataset, dalam tugas akhir ini dibuat dataset image malware menggunakan 1907 sampel yang dikelompokkan menjadi malicious dan benign yang divisualisasikan dengan dua citra yaitu RGB dan grayscale. Pada tugas akhir ini dataset malicious dan benign sampel dalam format RGB dan grayscale image dibuat dengan empat sub-sistem. Sub-sistem pertama pengumpulan sampel windows PE file melalui proses downloading dan cloning dari public repositories. Sub-sistem kedua melakukan proses binary hashing untuk memperoleh hash SHA-256 dari setiap sampel. Sub-sistem ketiga dilakukan scanning dari setiap hash ke VirusTotal untuk memperoleh informasi malicious dan benign sampel lalu mengelompokkan sampel sesuai hasil pemindaian. Sub-sistem keempat, sampel malicious dan benign kemudian dikonversi ke format images dengan citra RGB dan grayscale. Hasil dataset yang diperoleh untuk citra RGB benign adalah 858 dan malicious adalah 1.025 dan untuk citra grayscale benign adalah 872 dan malicious adalah 1.033. Hasil dataset diuji menggunakan algoritma Convolutional Neural Network (CNN) sederhana untuk memastikan dataset layak untuk digunakan.