







Dalam mempertanggungjawabkan penyaluran subsidi listrik yang tepat, maka PT
PLN (Persero) wajib melaporkan komponen biaya yang dikeluarkan untuk
menyelenggarakan penyaluran energi listrik atau yang disebut sebagai komponen
Biaya Pokok Penyediaan (BPP) Tenaga Listrik ke Pemerintah secara periodik.
Dalam melaporkan hal tersebut, PT PLN (Persero) harus melakukan identifikasi
komponen BPP (yang disebut juga sebagai Allowable Cost) dan non-BPP (yang
disebut juga sebagai Non-Allowable Cost) pada transaksi keuangan yang tersimpan
di sistem keuangan perusahaan. Saat ini proses identifikasi pengelompokkan
komponen BPP dan non-BPP dilakukan secara manual sehingga memerlukan
sumberdaya yang besar. Data transaksi keuangan yang digunakan untuk identifikasi
terdiri dari kode Akun dan teks keterangan Transaksi.
Dalam upaya mengefisiensikan proses identifikasi komponen BPP dan non BPP
pada transaksi keuangan yang berjumlah besar, maka penulis mengusulkan sebuah
model klasifikasi teks berbasis pembelajaran mesin dengan menggunakan machine
learning. Data yang akan digunakan merupakan data transaksi keuangan periode
Januari - Desember 2023 untuk pengembangan dan evaluasi model dan data
transaksi keuangan periode Januari - Maret 2024 untuk melakukan prediksi dengan
menggunakan model yang telah dikembangkan. Data memiliki tiga kelompok/kelas
yaitu AC, NAC dan PROP (kelas PROP merupakan transaksi yang memiliki nilai
Proporsi atas nilai NAC). Data transaksi keuangan yang memiliki teks bebas
bersifat tidak terstruktur dan menggunakan singkatan sehingga perlu dilakukan
preprocessing terlebih dahulu. Tahapan preprocessing yang akan digunakan antara
lain case folding, noise removal, tokenization, stop word, spell checker, dan word
representation. Selain itu, data transaksi yang digunakan memiliki karakteristik imbalanced data,
yaitu kelompok/kelas pada dataset tidak memiliki distribusi normal sehingga
diperlukan metode tambahan untuk mengatasi hal tersebut agar hasil machine
learning tidak bias di kelompok mayoritas. Untuk mengatasi hal tersebut, digunakan metode Synthetic minority oversampling (SMOTE) agar hasil
pembacaan machine learning lebih akurat.
Pada penelitian akan dilakukan 2 skenario untuk membandingkan model yang lebih
baik, skenario pertama model menggunakan metode Random Forest dan skenario
kedua model menggunakan metode CNN. Berdasarkan hasil penelitian ditemukan
bahwa model SMOTE-Random Forest memiliki hasil evaluasi metriks yang lebih
baik dibandingkan dengan SMOTE-CNN yaitu nilai akurasi sebesar 97% dan AUC
sebesar 0.9871. Penerapan model tersebut terhadap data baru memberikan akurasi
sebesar 85%. Penerapan machine learning pada klasifikasi transaksi keuangan
untuk menentukan komponen BPP dan Non BPP pada subisidi listrik mampu
memberikan efisiensi waktu yang baik, model mampu memprediksi data baru lebih
cepat dibandingkan dengan klasifikasi manual.