Menurut data dari siteefy.com, saat ini terdapat lebih dari 1,1 miliar website dan lebih dari 250.000 website baru dibuat setiap hari. Pertumbuhan ini turut meningkatkan potensi risiko serangan siber terhadap website, yaitu peretasan. Serangan ini tidak hanya merusak reputasi pemilik website, tetapi juga berpotensi menimbulkan kerugian finansial dan hukum. Sayangnya, deteksi terhadap serangan ini umumnya bersifat reaktif, yakni baru diketahui setelah dilaporkan oleh pihak ketiga. Oleh karena itu, dibutuhkan pendekatan deteksi dini yang mampu mengenali peretasan secara otomatis dan efisien.
Berbagai pendekatan telah dikembangkan untuk mendeteksi peretasan website. Metode konvensional seperti hash matching dan diff cukup efektif untuk situs statis, namun rentan terhadap false positive saat dihadapkan dengan situs dinamis yang sering mengalami perubahan tampilan. Selanjutnya, pendekatan machine learning menawarkan akurasi ketingkat yang lebih tinggi, tetapi sangat bergantung pada kualitas ekstraksi fitur yang dilakukan secara manual. Sementara itu, pendekatan deep learning seperti CNN dan BiLSTM mulai banyak digunakan untuk memproses struktur visual dan teks HTML. Namun, model ini seringkali memerlukan sumber daya komputasi tinggi, dan belum optimal dalam memahami struktur semantik kompleks dalam HTML.
Penelitian ini mengusulkan pendekatan berbasis Transformer yakni DistilBERT, yang tidak hanya menganalisis secara semantik konten teks HTML, tetapi juga mengintegrasikan informasi numerik hasil ekstraksi struktur HTML melalui pendekatan multimodal. Penggabungan kekuatan representasi teks dan fitur HTML diharapkan mampu meningkatkan akurasi deteksi serta adaptif terhadap variasi struktur halaman. Awalnya, dilakukan analisis statistik terhadap kata-kata dan simbol yang sering muncul pada halaman teretas, termasuk frasa seperti hacked by, simbol ASCII, dan tag HTML non-umum. Analisis frekuensi ini diperkuat dengan uji chi-square untuk mengukur keterkaitan kata atau simbol dengan kategori peretasan atau normal. Proses ini memungkinkan identifikasi kata kunci dan pola simbolik yang memiliki korelasi signifikan terhadap aksi peretasan.
Selanjutnya, kata dan simbol terpilih yang telah diidentifikasi melalui analisis statistik digabungkan ke dalam representasi struktur HTML untuk membentuk fitur HTML. Proses ini kemudian dilanjutkan dengan tahapan feature engineering menggunakan kombinasi tiga metode seleksi fitur, yaitu Principal Feature Analysis, Ablation Test, dan Permutation Feature Importance. Tujuannya adalah untuk meningkatkan akurasi klasifikasi sekaligus mengurangi kompleksitas model melalui eliminasi fitur yang kurang informatif.
Evaluasi terhadap efektivitas pendekatan ini dilakukan dengan enam variasi skenario representasi data, meliputi: teks HTML mentah, teks yang telah diproses, fitur HTML hasil ekstraksi, representasi teks HTML, serta dua skenario multimodal yang menggabungkan teks dan fitur HTML secara bersamaan. Keenam skenario ini dirancang untuk mengevaluasi efektivitas pendekatan berdasarkan jenis data input, menguji kesesuaian antara arsitektur model dan bentuk data, serta menemukan keseimbangan optimal antara akurasi dan efisiensi komputasi.
Sebagai bagian dari evaluasi, performa model utama DistilBERT disandingkan terhadap dua model baseline, Random Forest dan BiLSTM. Hasil pengujian menunjukkan bahwa pendekatan multimodal berbasis DistilBERT mampu memberikan akurasi dan F1 score yang tinggi secara konsisten, khususnya pada representasi teks HTML dan fitur HTML. Di sisi lain, model Random Forest menawarkan efisiensi sumber daya yang tinggi dalam skenario berbasis fitur HTML, sedangkan BiLSTM menunjukkan sensitivitas terhadap kualitas representasi teks. Temuan ini mengindikasikan bahwa pemilihan arsitektur dan bentuk representasi input sangat memengaruhi performa model, serta bahwa pendekatan multimodal mampu menghadirkan keseimbangan antara akurasi, efisiensi, dan fleksibilitas dalam mendeteksi peretasan berbasis konten HTML.
Perpustakaan Digital ITB