Sistem finansial masih memegang peranan yang sangat penting dalam pemenuhan
kebutuhan manusia. Penggunaan sistem keuangan baik secara digital maupun
nondigital tidak luput dari celah pada sistem keamanannya. Salah satu ancaman
terbesar adalah kasus penipuan atau fraud yang dapat menyebabkan kerugian yang
sangat besar. Saat ini, industri-industri telah membuat sistem pendeteksi fraud dengan
menerapkan konsep machine learning. Salah satu algoritma machine learning untuk
klasifikasi yang populer adalah support vector machine (SVM) karena metode ini dapat
bekerja baik pada data terstruktur dan tidak terstruktur, efektif digunakan pada data
dengan dimensi tinggi, serta fleksibel dalam penggunaan kernel untuk mengatasi data
yang bersifat nonlinear. Namun, SVM akan menjadi kurang optimal apabila
diaplikasikan pada dataset berukuran besar seperti fraud karena pemecahan masalah
quadratic programming (QP) yang membutuhkan memori dan waktu komputasi yang
besarsaat training. Sementara itu, waktu prediksi model dipengaruhi oleh kompleksitas
model yang bergantung pada hyperparameter seperti jenis kernel dan ukuran dari data
itu sendiri. Hal ini menjadi penting karena sistem pendeteksi fraud sangat
mengandalkan kecepatan komputasi model untuk memprediksi transaksi fraud
mendekati real-time serta memaksimalkan pengalaman pengguna.
Untuk mengatasi masalah waktu komputasi, terdapat least-squares SVM yang hanya
memecahkan masalah persamaan linear, sehingga akan mengurangi kompleksitas
komputasi. Selain itu, terdapat alternatif teknik data reduction yaitu agregasi data
klasik menjadi data simbolis, seperti histogram dan kategori. Jika data klasik hanya
menyimpan satu nilai data saja, data simbolis akan memiliki informasi tambahan,
misalnya data histogram dapat menyimpan jangkauan nilai ke dalam bins serta
frekuensi kemunculannya. Sehingga, diharapkan teknik agregasi ini dapat menyimpan
informasi sebanyak-banyaknya dengan volume sekecil mungkin. Al-Ma’shumah dkk.
(2022) melakukan modifikasi model probabilistic support vector machine (PSVM)
pada penelitian Abaszade dkk. (2018) menjadi expectation-based probabilistic SVM
(EPSVM) dan quantile-based probabilistic SVM (QPSVM). Model ini dapat
diaplikasikan pada data histogram numerik menghasilkan representasi ekspektasi dan
kuantil.
Pada penelitian ini, akan dibuat sistem pendeteksi fraud yang menerapkan machine
learning menggunakan algoritma SVM, EPSVM, dan QPSVM berbasis least-squares.
Pengembangan dilakukan melalui tahapan CRISP-DM yang diawali exploratory data
analysis (EDA) dan data preparation yang mencakup random undersampling, feature
selection, serta transformasi data klasik menjadi data simbolis. Kemudian, dilakukan
pembuatan model dan eksperimen menggunakan hyperparameter seperti Nmember,
metode binning, kernel, dan nilai kuantil p untuk dievaluasi menggunakan beberapa
metrik seperti recall, FPR, AUC, training time, dan prediction time. Sebagai hasilnya,
pada LS-SVM Standar, nilai metrik evaluasi tertinggi dimiliki oleh kernel RBF dengan
recall sebesar 0.900, FPR sebesar 0.012, AUC sebesar 0.944, training time sebesar
5144 detik, dan prediction time sebesar 7.5 detik. Pada model terbaik LS-PSVM,
pemilihan algoritma LS-QPSVM p = 0.5 dengan kernel Polinomial, Nmember = 5, dan
metode binning = Doane menghasilkan recall sebesar 0.860, FPR sebesar 0.039, dan
AUC sebesar 0.910, training time sebesar 405 detik dan prediction time sebesar 2 detik.
Metrik evaluasi pada LS-PSVM terbaik masih lebih rendah dibandingkan metrik
evaluasi pada model LS-SVM Standar. Hal ini disebabkan terdapat informasi yang
hilang dari proses transformasi dari data klasik menjadi representasi data simbolis.
Akan tetapi, waktu komputasi training dan prediksi yang lebih rendah akan menghemat
biaya operasional komputasi, memungkinkan pembaruan model dan eksperimen yang
lebih sering, serta mempercepat deteksi transaksi fraud secara real-time dan waktu
respon sehingga meningkatkan pengalaman pengguna sistem keuangan.